Conteúdo de solução de problemas para ajudar a localizar um módulo de memória defeituoso
Como saber a localização adequada da Unidade de Processamento Central (CPU) (1 ou 2) e do banco de módulos de memória em linha (DIMM) duplo quando há um módulo de memória suspeito e com defeito?
Proceda conforme indicado abaixo, que é baseado em etapas de diagnóstico para encontrar o DIMM que está causando um ECC_error do IErr:
Nota | Certifique-se de que a ferramenta ipmitool (consulte IPMI, V2.0, ferramenta de teste de comando) esteja carregada ou disponível para ser executada nesse nó. Isso permitirá que você examine o registro de eventos do sistema (que é um binário). |
Nota |
Examine o registro de eventos do sistema olhando para a lista estendida desta forma:
#sudo lista de processadores ipmitool | Menos
1c | 24/08/2018 | 22:51:49 | Sensor de Memória Mmry ECC | ECC incorreável | Afirmou
1d | 24/08/2018 | 22:51:49 | Sensor de Memória Mmry ECC | ECC incorreável | Afirmou Em seguida, você pode inspecionar qualquer entrada no registro de eventos do sistema, referindo-se ao valor Hexadecimal (HEX) na primeira coluna: #sudo sel ipmitool obter 0x1c
ID de registro de SEL: 001c Tipo de registro: 02 Data de data/hora: 24/08/2018 22:51:48 ID do gerador: 0033 Revisão de EvM: 04 Tipo de sensor: memória Número do sensor: 02 Tipo de evento: Descrete específico do sensor Direção do evento: evento de afirmação Dados do evento (RAW) : a10103 Interpretação de evento: ausente Descrição: ECC incorrendo ID do sensor: sensor Mmry ECC (0x2) ID da entidade: 32.1 (dispositivo de memória) Tipo de sensor: memória (0x0c) |
Depure a localização do log dos dados do evento (RAW)
- Insira esse número em uma calculadora:
- Veja o valor do Binary (BIN), especificamente os últimos 8 bytes. Na imagem acima, veja os bits mais à direita (como destacado).
- Converta-o para decimal e, como a tabela abaixo indica, os bits certos representam o valor do soquete DIMM: 0=A, 1=B, 2=C,3=D, e assim por diante.
O segundo maior número de bits da direita representa o soquete da CPU.
Neste caso, b0000 = CPU1. b0001 seria igual à CPU2.
Ao usar IPMI, não é possível obter o nível de detalhes como é exibido na GUI (Baseboard Management Controller) Web Graphical User Interface (GUI). No entanto, você pode usar Redfish executando o próximo comando: curl -k -u <user>:<password> https://<ip>/redfish/v1/Systems/<serial #>/LogServices/SEL/Entries?$skiptoken=0.
Nota |
Skiptoken é de onde começar. Normalmente retornará 50 registros, então skiptoken será 0, 50, 100, e assim por diante. No final da resposta, ele diz o que o próximo skiptoken deve ser para continuar lendo. |
Como alternativa, você pode usar as Intel® Server Debug and Provisioning Tool (Intel® SDP Tool) do seu sistema de gerenciador de servidor executando o comando SDPtool <ipv4> <username> <password> depuração <filename> .