Intel® Data Center Diagnostic Tool para Intel® Xeon® processadores

Documentação

Manutenção e desempenho

000058107

15/09/2021

Introdução

O Intel® Data Center Diagnostic Tool é uma ferramenta de software de diagnóstico que pode ser executado em suas plataformas de data center para:

  • Verifique a funcionalidade de todos os núcleos dentro de um Intel® Xeon® processador.
  • Seja usado como parte de um programa regular de manutenção do sistema.

Alta confiabilidade e disponibilidade no data center exigem as ferramentas certas e um compromisso com a manutenção. A Intel acredita que é uma melhor prática do setor usar ferramentas de manutenção como essas para implantação inicial e testes periódicos para ajudar a garantir a melhor experiência do sistema.

Requisitos do sistema

O Intel Data Center Diagnostic Tool é um aplicativo Linux* que pode ser instalado e executado em muitas distribuições Linux atuais. Não há nenhuma versão do Windows* desta ferramenta.

Para obter a melhor cobertura, execute o aplicativo no sistema raiz de um servidor. É possível executar dentro de um contêiner ou máquina virtual, mas esteja ciente de que algumas funcionalidades podem ser desabilitadas.

Processadores suportados:

  • Processadores escaláveis Intel® Xeon® da 3ª geração (anteriormente Ice Lake e Cooper Lake)
  • Processadores escaláveis Intel® Xeon® 2ª geração (anteriormente Cascade Lake)
  • Processadores escaláveis Intel® Xeon® primeira geração (anteriormente Skylake)
  • Intel® Xeon® família de processadores E5 v4 (anteriormente Broadwell)
  • Intel® Xeon® família de processadores E7 v4 (anteriormente Broadwell)

Instalação

Notas
  • Detalhes adicionais estão disponíveis no arquivo /usr/share/doc/dcdiag/README.rst incluído na instalação.
  • Recomendamos usar as etapas nas seções abaixo para vincular ao repositório, o que garante que você obtenha a versão mais recente do Intel® Data Center Diagnostic Tool. No entanto, se você precisar de um binário para download, use um arquivo RPM ou arquivo DEB.

 

Debian*/Ubuntu*

Para instalar os Intel® Data Center Diagnostic Tool de software em distribuições baseadas em Debian*, adicione o repositório Intel software pacote e instale os pacotes apropriados.

Antes de copiar+colar no seu console, você pode querer executar sudo ls e digitar sua senha para evitar que os comandos fossem consumidos pelo prompt de senha sudo:

Configure a chave para verificar as assinaturas do pacote

curl https://repositories.intel.com/dcdt/dcdiag.pub | sudo apt-key add -

Configure o repositório

sudo apt-add-repository 'deb https://repositories.intel.com/dcdt/debian stable main'

Instale o pacote

sudo apt-get update
sudo apt-get install dcdiag

Fedora*/CentOS*/RHEL*

Para instalar os Intel Data Center Diagnostic Tool de software em uma distribuição baseada em Fedora, adicione o repositório Intel software pacote e instale o pacote.

Na primeira vez que você instalar, o YUM ou a DNF solicitarão que você aceite a chave de assinatura. Verifique se a impressão digital é a seguinte e depois aceite:
Userid: "CN=Release Key"
Fingerprint: 6226 CA48 AAB6 0900 2093 C7C4 0A04 4B42 CF00 5B79

Antes de copiar+colar no seu console, você pode querer executar sudo ls e digitar sua senha para evitar que os comandos fossem consumidos pelo prompt de senha sudo:

Instale o arquivo do repositório

sudo yum install https://repositories.intel.com/dcdt/dcdiag-repo.rpm

Instale o pacote

sudo yum install dcdiag

OpenSUSE*/SUSE Linux Enterprise*:

Instale o arquivo do repositório

sudo zypper ar https://repositories.intel.com/dcdt/dcdiag.repo

Instale o pacote

sudo zypper install dcdiag

Você será avisado de que o respond.xml não está assinado. Responda sim para continuar. Você receberá outra chance de verificar a assinatura do pacote. Verifique se a impressão digital é a seguinte e depois aceite:

Repository: dcdiag
Key Name: CN=Release Key
Key Fingerprint: 6226CA48 AAB60900 2093C7C4 0A044B42 CF005B79
Key Created: Tue 24 Nov 2020 01:47:38 PM PST
Key Expires: Sat 25 Nov 2023 01:47:38 PM PST
Rpm Name: gpg-pubkey-cf005b79-5fbd7f7a

 

Como testar o Intel Xeon processador

Uma vez instalado, o Intel Data Center Diagnostic Tool é habilitado automaticamente para execução em segundo plano. Você pode verificar se isso é bem sucedido com o seguinte comando:

# systemctl status dcdiag
● dcdiag.service - Intel® Data Center Diagnostic Tool
Loaded: loaded (/usr/lib/systemd/system/dcdiag.service; enabled; vendor preset: disabled)
Active: active (running) since Fri 2021-02-19 11:24:17 MST; 4 days ago
Docs: file:///usr/share/doc/dcdiag/README.rst
Main PID: 8777 (dcdiag)
CGroup: /system.slice/dcdiag.service
└─8777 /usr/bin/dcdiag --service

Se algum erro for detectado, a ferramenta os registrará no log do sistema. A ferramenta também pode consultar se algum erro foi detectado na varredura de segundo plano usando o argumento --consulta.

# dcdiag --query
Intel® Data Center Diagnostic Tool Version 506
Test completed successfully. No issues detected.

Esta ferramenta também pode ser executada manualmente em primeiro plano executando-se em um prompt de comando Linux:

# dcdiag

O teste manual é executado por cerca de 45 minutos e tem alta utilização da CPU.

Quando o diagnóstico é concluído, o sistema devolve uma das seguintes mensagens:

  • Teste concluído com êxito. Nenhum problema detectado.
     
  • Teste concluído com êxito. Ocorreu um ou mais erros de verificação da máquina. Verifique os registros do sistema.
     
  • Este processador não é suportado por esta versão da ferramenta.

    Verifique o modelo e a versão do processador do sistema. Esta mensagem aparece se o Intel Data Center Diagnostic Tool não detectar uma versão de produção dos processadores suportados. As amostras de engenharia não são suportadas por esta ferramenta.

    Encontre ajuda para identificar o processador.
     
  • Teste concluído. Os resultados são inconclusivos devido a uma versão desatualizada do microcódigo.

    A versão mais recente do microcódigo aborda problemas conhecidos. Atualize. As atualizações de microcódigo geralmente são fornecidas por seu fornecedor de distribuição Linux, juntamente com correções de segurança e outras atualizações de firmware para vários componentes. Se o seu sistema não tiver essas atualizações habilitadas, recomendamos que você as habilite. O microcódigo é carregado automaticamente pelo kernel Linux em cada inicialização e pode ser recarregado em tempo de execução com o seguinte comando como raiz:

    echo 1 > /sys/devices/system/cpu/microcode
     
  • Teste concluído. Os resultados são inconclusivos devido ao sistema exceder os limites de temperatura

    Isso pode ser devido a uma variedade de problemas com o sistema que não está fornecendo resfriamento suficiente para a CPU operar dentro dos limites de temperatura necessários. Recomendamos que você verifique seu sistema para garantir que o resfriamento necessário esteja funcionando corretamente. Isso pode incluir ventiladores defeituosos, fluxo de ar incorreto ou algum outro problema ambiental.
     
  • Teste concluído. Os resultados são inconclusivos, ocorreu um ou mais erros de verificação de máquina.

    Verifique os registros do sistema.
     
  • Falha no teste. Entre em contato com o fabricante do sistema ou com o fornecedor do processador para obter suporte.

    Se os resultados do teste mostrarem falha, verifique se os processadores do nó do servidor ainda estão em garantia:

    • Se você tiver um processador Intel® Xeon® in a box ainda sob garantia de 3 anos, entre em contato com o Suporte ao Cliente Intel para obter assistência.
    • Se você tiver um processador de bandeja, entre em contato com o fornecedor do seu sistema ou processador ou com o local de compra para verificar se o processador ainda está em garantia.
      NotaOs processadores tray são vendidos diretamente para fabricantes de sistemas ou distribuidores autorizados Intel. A Intel não oferece garantia direta para usuários finais para processadores de bandeja, a menos que eles vieram pré-instalados em sistemas de servidor Intel® Data Center Blocks (Intel® DCB). Com exceção Intel DCB sistemas, a garantia do processador da bandeja é do fornecedor ou do local de compra do processador ou do sistema, se o processador foi pré-instalado. A Intel recomenda a compra de distribuidores autorizados Intel, fornecedores aprovados pela Intel e revendedores de produtos Intel® .
    • Saiba que a Intel não tem um programa de substituição fora da garantia.
       
  • Falha no teste.

    O teste foi concluído e foi detectado um erro no processador físico contendo /sys/devices/system/cpu/cpuXX.

    Entre em contato com o fabricante do sistema ou com o fornecedor do processador para obter suporte.

  • Falha no teste.

    O teste não pode determinar qual processador físico causou a falha.

    Entre em contato com o fabricante do sistema ou com o fornecedor do processador para obter suporte.
     

Histórico da versão

DataVersãoDescrição
7 de julho de 2021540Versão inicial