Intel® Data Center Diagnostic Tool para Intel® Xeon® processadores

Documentação

Manutenção e desempenho

000058107

18/11/2021

Introdução

O Intel® Data Center Diagnostic Tool é uma ferramenta de software de diagnóstico que pode ser executado em suas plataformas de data center para:

  • Verifique a funcionalidade de todos os núcleos dentro de um Intel® Xeon® processador.
  • Seja usado como parte de um programa regular de manutenção do sistema.

Alta confiabilidade e disponibilidade no data center exigem as ferramentas certas e um compromisso com a manutenção. A Intel acredita que é uma melhor prática do setor usar ferramentas de manutenção como essas para implantação inicial e testes periódicos para ajudar a garantir a melhor experiência do sistema.

    Nota
    • A infraestrutura de computação moderna traz uma demanda cada vez maior por energia de processamento combinada com as expectativas dos negócios para qualidade de serviço e alta disponibilidade (e garantias em contratos de nível de serviço [SLAs] em geral). Essas expectativas enfatizam a necessidade de ferramentas de software potentes que podem ajudar a prever, identificar e minimizar falhas inesperadas do sistema que podem comprometer a qualidade ou o tempo de atividade do serviço. Leia um artigo da IDC que aborda a necessidade de ferramentas de diagnóstico, incluindo o Intel® Data Center Diagnostic Tool.

    Requisitos do sistema

    O Intel Data Center Diagnostic Tool é um aplicativo Linux* que pode ser instalado e executado em muitas distribuições Linux atuais. Não há nenhuma versão do Windows* desta ferramenta.

    Para obter a melhor cobertura, execute o aplicativo no sistema raiz de um servidor. É possível executar dentro de um contêiner ou máquina virtual, mas esteja ciente de que algumas funcionalidades podem ser desabilitadas.

    Processadores suportados:

    • Processadores escaláveis Intel® Xeon® da 3ª geração (anteriormente Ice Lake e Cooper Lake)
    • Processadores escaláveis Intel® Xeon® 2ª geração (anteriormente Cascade Lake)
    • Processadores escaláveis Intel® Xeon® primeira geração (anteriormente Skylake)
    • Intel® Xeon® família de processadores E5 v4 (anteriormente Broadwell)
    • Intel® Xeon® família de processadores E7 v4 (anteriormente Broadwell)
    Nota
    • Para desenvolvedores: a Intel iniciou o Open Data Center Diagnostic Project, que abre a estrutura de diagnóstico de data center da Intel e fornece testes selecionados. Isso oferece aos desenvolvedores uma estrutura de desenvolvimento de testes consistente que convida a criatividade da comunidade de código aberto a aprimorar o gerenciamento de frotas de nuvem através do desenvolvimento de telas de teste exclusivas e outras soluções inovadoras. Para obter mais informações e acesso a esta estrutura e testes

    Instalação

    Notas
    • Detalhes adicionais estão disponíveis no arquivo /usr/share/doc/dcdiag/README.rst incluído na instalação.
    • Recomendamos usar as etapas nas seções abaixo para vincular ao repositório, o que garante que você obtenha a versão mais recente do Intel® Data Center Diagnostic Tool. No entanto, se você precisar de um binário para download, use um arquivo RPM ou arquivo DEB.

     

    Debian*/Ubuntu*

    Para instalar os Intel® Data Center Diagnostic Tool de software em distribuições baseadas em Debian*, adicione o repositório Intel software pacote e instale os pacotes apropriados.

    Antes de copiar+colar no seu console, você pode querer executar sudo ls e digitar sua senha para evitar que os comandos fossem consumidos pelo prompt de senha sudo:

    Configure a chave para verificar as assinaturas do pacote

    curl https://repositories.intel.com/dcdt/dcdiag.pub | sudo apt-key add -

    Configure o repositório

    sudo apt-add-repository 'deb https://repositories.intel.com/dcdt/debian stable main'

    Instale o pacote

    sudo apt-get update
    sudo apt-get install dcdiag

    Fedora*/CentOS*/RHEL*

    Para instalar os pacotes Intel Data Center Diagnostic Tool software em uma distribuição baseada em Fedora, adicione o repositório Intel software pacote e instale o pacote.

    Na primeira vez que você instalar, o YUM ou a DNF solicitarão que você aceite a chave de assinatura. Verifique se a impressão digital é a seguinte e depois aceite:
    Userid: "CN=Release Key"
    Fingerprint: 6226 CA48 AAB6 0900 2093 C7C4 0A04 4B42 CF00 5B79

    Antes de copiar+colar no seu console, você pode querer executar sudo ls e digitar sua senha para evitar que os comandos fossem consumidos pelo prompt de senha sudo:

    Instale o arquivo do repositório

    sudo yum install https://repositories.intel.com/dcdt/dcdiag-repo.rpm

    Instale o pacote

    sudo yum install dcdiag

    OpenSUSE*/SUSE Linux Enterprise*:

    Instale o arquivo do repositório

    sudo zypper ar https://repositories.intel.com/dcdt/dcdiag.repo

    Instale o pacote

    sudo zypper install dcdiag

    Você será avisado de que o respond.xml não está assinado. Responda sim para continuar. Você receberá outra chance de verificar a assinatura do pacote. Verifique se a impressão digital é a seguinte e depois aceite:

    Repository: dcdiag
    Key Name: CN=Release Key
    Key Fingerprint: 6226CA48 AAB60900 2093C7C4 0A044B42 CF005B79
    Key Created: Tue 24 Nov 2020 01:47:38 PM PST
    Key Expires: Sat 25 Nov 2023 01:47:38 PM PST
    Rpm Name: gpg-pubkey-cf005b79-5fbd7f7a

     

    Como testar o Intel Xeon processador

    Uma vez instalado, o Intel Data Center Diagnostic Tool é habilitado automaticamente para execução em segundo plano. Você pode verificar se isso é bem sucedido com o seguinte comando:

    # systemctl status dcdiag
    ● dcdiag.service - Intel® Data Center Diagnostic Tool
    Loaded: loaded (/usr/lib/systemd/system/dcdiag.service; enabled; vendor preset: disabled)
    Active: active (running) since Fri 2021-02-19 11:24:17 MST; 4 days ago
    Docs: file:///usr/share/doc/dcdiag/README.rst
    Main PID: 8777 (dcdiag)
    CGroup: /system.slice/dcdiag.service
    └─8777 /usr/bin/dcdiag --service

    Se algum erro for detectado, a ferramenta os registrará no log do sistema. A ferramenta também pode consultar se algum erro foi detectado na varredura de segundo plano usando o argumento --consulta.

    # dcdiag --query
    Intel® Data Center Diagnostic Tool Version 506
    Test completed successfully. No issues detected.

    Esta ferramenta também pode ser executada manualmente em primeiro plano executando-se em um prompt de comando Linux:

    # dcdiag

    O teste manual é executado por cerca de 45 minutos e tem alta utilização da CPU.

    Quando o diagnóstico é concluído, o sistema devolve uma das seguintes mensagens:

    • Teste concluído com êxito. Nenhum problema detectado.
       
    • Teste concluído com êxito. Ocorreu um ou mais erros de verificação da máquina. Verifique os registros do sistema.
       
    • Este processador não é suportado por esta versão da ferramenta.

      Verifique o modelo e a versão do processador do sistema. Esta mensagem aparece se o Intel Data Center Diagnostic Tool não detectar uma versão de produção dos processadores suportados. As amostras de engenharia não são suportadas por esta ferramenta.

      Encontre ajuda para identificar o processador.
       
    • Teste concluído. Os resultados são inconclusivos devido a uma versão desatualizada do microcódigo.

      A versão mais recente do microcódigo aborda problemas conhecidos. Atualize. As atualizações de microcódigo são geralmente fornecidas pelo fornecedor de distribuição Linux, juntamente com correções de segurança e outras atualizações de firmware para vários componentes. Se o seu sistema não tiver essas atualizações habilitadas, recomendamos que você as habilite. O microcódigo é carregado automaticamente pelo kernel Linux em cada inicialização e pode ser recarregado em tempo de execução com o seguinte comando como raiz:

      echo 1 > /sys/devices/system/cpu/microcode
       
    • Teste concluído. Os resultados são inconclusivos devido ao sistema exceder os limites de temperatura

      Isso pode ser devido a uma variedade de problemas com o sistema que não está fornecendo resfriamento suficiente para a CPU operar dentro dos limites de temperatura necessários. Recomendamos que você verifique seu sistema para garantir que o resfriamento necessário esteja funcionando corretamente. Isso pode incluir ventiladores defeituosos, fluxo de ar incorreto ou algum outro problema ambiental.
       
    • Teste concluído. Os resultados são inconclusivos, ocorreu um ou mais erros de verificação de máquina.

      Verifique os registros do sistema.
       
    • Falha no teste. Entre em contato com o fabricante do sistema ou com o fornecedor do processador para obter suporte.

      Se os resultados do teste mostrarem falha, verifique se os processadores do nó do servidor ainda estão em garantia:

      • Se você tiver um processador Intel® Xeon® in a box ainda sob garantia de 3 anos, entre em contato com o Suporte ao Cliente Intel para obter assistência.
      • Se você tiver um processador de bandeja, entre em contato com o fornecedor do seu sistema ou processador ou com o local de compra para verificar se o processador ainda está em garantia.
        NotaOs processadores tray são vendidos diretamente para fabricantes de sistemas ou distribuidores autorizados Intel. A Intel não oferece garantia direta para usuários finais para processadores de bandeja, a menos que eles vieram pré-instalados em sistemas de servidor Intel® Data Center Blocks (Intel® DCB). Com exceção Intel DCB sistemas, a garantia do processador da bandeja é do fornecedor ou do local de compra do processador ou do sistema, se o processador foi pré-instalado. A Intel recomenda a compra de distribuidores autorizados Intel, fornecedores aprovados pela Intel e revendedores de produtos Intel® .
      • Saiba que a Intel não tem um programa de substituição fora da garantia.
         
    • Falha no teste.

      O teste foi concluído e foi detectado um erro no processador físico contendo /sys/devices/system/cpu/cpuXX.

      Entre em contato com o fabricante do sistema ou com o fornecedor do processador para obter suporte.

    • Falha no teste.

      O teste não pode determinar qual processador físico causou a falha.

      Entre em contato com o fabricante do sistema ou com o fornecedor do processador para obter suporte.
       

    Histórico da versão

    DataVersãoDescrição
    7 de julho de 2021540Versão inicial