O que eu estou vendo?
Eventos de Código de Correção de Erro (ECC) corriíveis e/ou não corrigidos para módulos de memória. Por exemplo:
Mmry ECC Sensor SMI Handler Warning Memory CPU: 1, DIMM: D0 DIMM Rank: 1. - ECC corrigível / outro erro de memória corrigível - afirmou.
O que é evento de erro corriível do Código de Correção de Erro de Memória (ECC)?
O erro corrigido com ECC representa um limiar transbordando para um determinado módulo de memória em linha duplo (DIMM) em um determinado prazo.
Como corrigi-lo:
Os erros de dados de memória são registrados como corriíveis ou incorreçáveis. Consulte as instruções abaixo, com base no tipo de erro que encontrar:

| Anotações | - Entre as etapas 2 e 3, para ambos os cenários, recoloque o módulo de memória (Remover e reinstalar).
- Este gráfico é um trecho da Tabela 73 dos Guias de solução de problemas do registro de eventos do sistema para Placas para servidor Intel®.
- O Utilitário de recuperação de informações de sistema pode ajudá-lo com a decodificação do local do DIMM.
- É recomendável ter a versão mais recente do BIOS para minimizar os erros.
|
- Se não houver um problema catastrófico (Tela roxa da morte (PSOD) ou reinicialização inesperada) e o erro de ECC corrigível, incluindo erro de correção de dados de dispositivo duplo adaptativo (ADDDC), seja inferior a 10 eventos a cada 24 horas para cada local do DIMM, que está dentro do limite, a recomendação é monitorar o servidor para qualquer recorrência de erro de ECC a cada local da DIMM que aciona o evento.
- Se houver um problema catastrófico (Tela roxa da morte (PSOD) ou reinicialização inesperada) e o erro de ECC corrigível, incluindo erro de correção de dados de dispositivo duplo adaptativo (ADDDC), for inferior a 10 eventos a cada 24 horas para cada local do DIMM, é recomendado reenviar cada local da DIMM seguindo as etapas abaixo:
- Desligue o sistema e remova o cabo de alimentação CA.
- Identifique o local do DIMM para reenviar. Consulte as Especificações técnicas do produto para sua plataforma de servidor para identificar a localização do DIMM.
- Execute a reenviação da DIMM identificada.
- Insira o cabo de alimentação CA e ligue novamente o sistema.
- Observe durante 24 horas qualquer recorrência de erro de ECC.
- Se o erro de ECC persistir com o mesmo local DIM que foi reenviado, então gere e envie os logs de SEL e Debug , ambos gerados do BMC Web Console para Intel Customer Support
- Os recursos avançados de teste de memória (AMT) foram introduzidos na pilha de BIOS e firmware a partir da revisão de BIOS 02.01.0014 para os sistemas de servidor Intel® S2600BP, S2600WF e S2600ST; e começando com a revisão da BIOS 22.01.0097 para a Sistema servidor Intel® S9200WK. Para esses produtos, recomendamos habilitar os recursos de teste de memória avançado (AMT) e de reparo pós-pacote (PPR) através do utilitário de configuração do BIOS para executar uma verificação completa da integridade da memória. Consulte o Capítulo 5 na Diretriz de substituição de memória e teste de memória avançado para produtos de servidor Intel® com base no chipset Intel® 62X – publicação técnica para detalhes.
| Anotações | Os erros de código de correção de erro (ECC) estão se auto corrigendo. Dependendo da configuração de Ras (Reliability Availability Serviceability) da memória, o controlador de memória integrado (IMC) pode desligar o DIMM afetado. |
| Para diferentes plataformas de servidor Intel, há algumas diferenças na definição do evento, consulte o Guia de solução de problemas do registro de eventos do sistema para sua plataforma de servidor |
| A Intel recomenda baixar e atualizar o BIOS do sistema para a versão mais recente disponível para a plataforma do seu servidor. |
| Se o sistema for um Intel® Data Center Block para Nutanix* Enterprise Cloud, em vez disso, visite a página do Nutanix* Life Cycle Manager. Para uma lista de compatibilidade de hardware e firmware, acesse a página de compatibilidade de hardware e firmware Nutanix*. |