Como a inicialização resiliente de falhas (FRB) funciona em placas para servidor Intel® e sistemas servidor Intel®

Documentação

Documentação e informações do produto

000007197

11/12/2023


Sintoma(s):

  • O que é FRB?
  • Como eu fico sabendo se está funcionando?
  • Inicialização resiliente de falhas em servidores Intel®.


Solução:

Inicialização resiliente de falha

O BMC (Baseboard Management Controller) implementa os níveis 1, 2 e 3 da FRB. Se o processador de inicialização padrão (BSP) não conseguir concluir o processo de inicialização, a FRB tenta inicializar usando um processador alternativo.

  • O FRB nível 1 destina-se a se recuperar de uma falha BIST detectada durante o POST. Esta recuperação da FRB é totalmente tratada pelo código do BIOS.
  • O FRB nível 2 destina-se a se recuperar de um tempo limite de watchdog durante o POST. O temporizador watchdog para FRB nível 2 é implementado no BMC.
  • O FRB de nível 3 destina-se a se recuperar de um tempo limite de watchdog em reinicialização física ou inicialização. Isso fornece funcionalidade de hardware para este nível de FRB.

FRB-1

Em um sistema multiprocessador, o BIOS registra os processadores de aplicativo na tabela de múltiplos processadores (MP) e nas tabelas APIC ACPI. Quando iniciado pelo BSP, se um processador de aplicativo (AP) não concluir a inicialização em um determinado tempo, presume-se que ele não seja funcional. Se o BIOS detectar que um processador de aplicativo falhou com o BIST ou não for funcional, ele solicitará que o BMC desabilite esse processador.

O BMC então gera uma reinicialização do sistema durante a desabilitação do processador; o BIOS não verá o processador com falha no próximo ciclo de inicialização. O AP falhou não é listado na tabela MP, nem nas tabelas APIC ACPI e é invisível para o sistema operacional. Se o BIOS detectar que o BSP falhou com o BIST, ele enviará uma solicitação ao BMC para desativar o processador presente. Se não houver um processador alternativo disponível, o BMC bipe o alto-falante e interrompe o sistema. Se o BMC puder encontrar outro processador, a propriedade BSP é transferida para esse processador através de uma redefinição de sistema.

FRB-2

O segundo temporizador watchdog (FRB-2) no BMC é configurado por aproximadamente 6 minutos pelo BIOS e foi projetado para garantir que o sistema complete o BIOS POST. O temporizador FRB-2 está ativado antes que o timer FRB-3 seja desabilitado para evitar qualquer janela desprotegida do tempo. Próximo ao final do POST, antes que os ROMs de opção sejam inicializados, o BIOS desabilitará o temporizador FRB-2 no BMC.

Se o sistema contiver mais de 1 GB de memória e o usuário optar por testar cada DWORD de memória, o temporizador watchdog será desabilitado antes do início do teste de memória estendido, pois o teste de memória pode levar mais de 6 minutos nessa configuração. Se o sistema ficar travado durante o POST, o BIOS não desativará o timer no BMC, que gera uma redefinição de sistema assíncrono (ASR).

FRB-3

O primeiro temporizador (FRB-3) começa a contagem regressiva sempre que o sistema sai de reinicialização difícil, que geralmente é de cerca de 5 segundos. Se o BSP reiniciar e começar a executar com êxito, o BIOS irá desativar o timer FRB-3 no BMC, desativando o sinal de FRB_TIMER_HLT (GPIO) e o sistema continuar com o POST. Se o temporizador expirar por causa da falha do BSP em buscar ou executar o código do BIOS, o BMC redefine o sistema e desabilita o processador com falha.

O sistema continua a alterar o BSP até que o BIOS POST supere a desabilitação do timer FRB-3 no BMC. O BMC soa códigos de bipe no alto-falante se não conseguir encontrar um bom processador. O processo de ciclo de todos os processadores é repetido ao redefinir o sistema ou ciclo de energia.