Um guia para erro de correção de memória ECC e quando ele aciona um evento
Etapas a seguir ao lidar com o evento de erro corrigida ECC registrado no Registro de eventos do sistema (SEL)
Os erros corrigidos do ECC representam um estouro de limite para um determinado DimM (Dual In-line Memory Modules) dentro de um determinado período de tempo.
- se não houver nenhum problema catastrófico (tela roxa da morte (PSOD) ou reinicialização inesperada, e o erro de ECC corrigido, incluindo correção de dados de dispositivo duplo adaptativo (ADDDC), que é menor que 10 eventos dentro de cada 24 horas para cada local DIMM, está dentro do limite limite, portanto, a recomendação é monitorar para qualquer reincidência de erro de ECC em cada local dimm que desencadeia o evento.
- Se houver um problema catastrófico (tela roxa da morte (PSOD) ou reinicialização inesperada, e o erro de ECC corrigido, incluindo correção de dados de dispositivo duplo adaptativo (ADDDC), que são mais de 10 eventos dentro de cada 24 horas para cada local dimm, é recomendável re-instalar cada local dimm seguindo as etapas abaixo:
- Desligue o sistema e remova o cabo de alimentação CA
- Identifique o local dimm para re-assento, consulte Especificações técnicas do produto para a plataforma do seu servidor para identificar a localização do DIMM
- Execute o re-assento de DIMMs(s) identificados
- Inserir Cabo de alimentação CA e alimentação no sistema
- Observe por 24 horas para qualquer reincidência de erro de ECC
- Se o erro ECC persistir com o mesmo local dimm que foi reatado, então gere e envie logs de SEL e depuração, ambos gerados a partir do Console web BMC, para o Suporte ao cliente Intel®
Notas |
Os erros do Código de correção de erros (ECC) estão se auto-corrigindo. Dependendo da configuração de serviceability de disponibilidade de confiabilidade (RAS) da memória, o Controlador de Memória Integrada (IMC) pode desligar o DIMM afetado. |
Para diferentes plataformas para servidor Intel, há algumas diferenças na definição de eventos, consulte o Guia de solução de problemas do registro de eventos do sistema para sua plataforma de servidor | |
A Intel recomenda baixar e atualizar o BIOS do sistema para a versão mais recente disponível para sua plataforma de servidor. | |
Se o sistema for certificado pela Intel® Data Center Systems para a Plataforma de nuvem empresarial Nutanix*, acesse a página Do Nutanix* Life Cycle Manager. Para obter uma lista de compatibilidade de hardware e firmware, acesse a página de compatibilidade de hardware e firmware Nutanix*. |