Como arquiteto-chefe e principal investigador do supercomputador Aurora no Laboratório Nacional Argonne em Illinois, Olivier Franza desempenha um papel de liderança em trazer à existência um dos instrumentos científicos mais ambiciosos, sem mencionar o maior cluster de GPUs do mundo.
Aurora está entre os projetos mais aguardados e altamente visíveis dos quais a Intel tem feito parte na memória recente - uma aposta audaciosa em todo o portfólio de sistemas da Intel. Espera-se que a máquina seja o primeiro supercomputador com desempenho máximo atingindo 2 exaflops, ou 2x1018, operações de ponto flutuante por segundo.
Isso coloca um certo grau de pressão sobre Franza, veterano de 22 anos na Intel que se juntou ao projeto Aurora como arquiteto de hardware de sistema em 2016, supervisionou a transição para uma máquina baseada em GPUs e se tornou o arquiteto-chefe em 2021.
"O arquiteto-chefe é responsável por definir a arquitetura geral do sistema do supercomputador, segundo os requisitos de alto nível do cliente", explica Franza. "Existem métricas fundamentais, como métricas gerais de desempenho e envelope de energia, mas também características inerentes como RAS - confiabilidade, disponibilidade, capacidade de manutenção - essenciais para construir um sistema escalável."
Suas responsabilidades também abrangem os detalhes da topologia do sistema, desde um nó até um rack e até o sistema completo, incluindo sua estrutura de rede e componentes de armazenamento.
Um roteiro abre oportunidade para moldar produtos futuros
Quando o planejamento inicial começou para a Aurora, um sistema patrocinado pelo Departamento de Energia dos Estados Unidos, o design consistia em uma coleção de tecnologias da Intel. No entanto, mudanças no roteiro de produtos da Intel, principalmente o fim das famílias de produtos Xeon Phi e Omnipath, exigiram um reinício. Conforme a Intel planejava construir GPUs para centros de dados, Franza se envolveu em discussões sobre o design da série Intel® Data Center GPU Max (codinome Ponte Vecchio).
Desta forma, Aurora não é apenas um sistema pontual. Em vez disso, isso ajudou a informar a estratégia e o portfólio de produtos em toda a Intel para lidar com a escala e o desempenho no mais alto nível.
"Nós incorporamos todos os requisitos ao nível de sistema da Aurora até o nível dos componentes", diz Franza.
A arquitetura e o conceito para a CPU Intel® Xeon® série Max com memória de alta largura de banda, por exemplo, foram gerados por algumas características da plataforma Intel Xeon Phi, o primeiro produto a integrar uma arquitetura de memória inovadora para alta largura de banda e alta capacidade no pacote.
Além disso, a necessidade de alto desempenho impulsionou avanços adicionais em todos os subsistemas, desde a solução termomecânica da lâmina de computação até sua integração física densa, até o armazenamento.
"A Intel acabou projetando um conceito de armazenamento completamente novo, o DAOS (armazenamento de objeto assíncrono distribuído)", diz Franza. É um ecossistema de software de código aberto que permite armazenamento de alta velocidade em hardware tradicional. "Aurora será um dos primeiros sistemas a utilizá-lo e, de longe, o maior."
Desde o Design de Componentes até Montar Milhares de Sistemas
O projeto Aurora impulsionou o pensamento ao nível de sistema e a colaboração abrangente entre várias unidades de negócios dentro da Intel, bem como com cientistas e engenheiros da Argonne e da Hewlett Packard Enterprise, o outro parceiro principal do projeto.
"Conseguir fazer com que toda a equipe se alinhe e entregue uma máquina como a Aurora é, para muitos de nós, uma experiência única na vida", diz Franza.
Embora os engenheiros tenham instalado a lâmina final em junho, o projeto continua a manter Franza acordado durante a noite, à medida que o sistema passa pelas etapas de testes, estabilização e validação em escala.
Ele fornece orientação a uma grande equipe que trabalha na inicialização do sistema, validação, estabilização, otimização e habilitação de cargas de trabalho de desempenho de sistema completo. O mais notável é o benchmark High Performance Linpack (HPL), que determina os principais sistemas do mundo, conforme certificado pela lista Top500 bianual.
Todas as manhãs, Franza participa da reunião diária de acompanhamento para examinar as execuções noturnas em cada nó individual e elaborar um plano de ação para o trabalho do próximo dia e além. Todas as tardes, uma reunião de encerramento diária resume o progresso e os obstáculos. O trabalho nunca para; a máquina está sempre em funcionamento.
"Temos uma abordagem passo a passo para validar e estabilizar metodicamente em escala", ele explica. "Você começa com a lâmina, depois passa para o rack, depois para vários racks, e expande a partir daí."
A Aurora é composta por 10.624 lâminas de computação, ostentando 63.744 GPUs da série Intel Max - mais GPUs do que qualquer outro sistema no mundo - e 21.248 CPUs Intel Xeon Max distribuídos em 166 racks.
"Tem o tamanho de quatro quadras de tênis, o que parece muito, não é mesmo?", ele diz. "Mas é só quando você realmente vai ver que você percebe a magnitude pura do projeto."
Franza deve garantir que o vasto sistema esteja estável, funcional e com bom desempenho. É uma tarefa assustadora, mas o fim está ao alcance.
"Caminhar pelos corredores, com todas as luzes acesas, e sentir que a máquina está funcionando é impressionante e obviamente extremamente gratificante", ele diz. "É uma conquista muito tangível que fala por si mesma."
"Um Esforço 'Único na Vida', um Supercomputador que Molda a Ciência"
"O que o mantém em movimento, apesar dos obstáculos de engenharia e bloqueios inesperados, é a oportunidade de construir 'uma máquina extraordinária' que impulsionará pesquisas impactantes." Ele cita o enorme potencial da Aurora para a pesquisa sobre o câncer como uma área em que o projeto beneficiará a todos nós.
"Acho que é algo que vai nos deixar muito orgulhosos", diz ele.
Aurora não apenas trabalhará na resolução de alguns dos problemas científicos e de engenharia mais complexos do mundo, mas também será uma plataforma ideal para executar IA generativa e aplicá-la à pesquisa. "Isso permitirá um dos maiores modelos de idiomas grandes planejados até o momento, o projeto de 1 trilhão de parâmetros Aurora GenAI , melhorando, permitindo e facilitando a vida dos cientistas", diz Franza.
Mas é o trabalho em equipe e a camaradagem que ele aprecia mais do que qualquer outra coisa.
"É um esforço prolongado e requer muita perseverança", ele diz. "A equipe principal manteve uma mentalidade de maratona, onde não termina até que realmente termine. Nós precisávamos do tipo de pessoas que conseguem se concentrar efetivamente por um longo período em algo imensamente desafiador. E no final, a conquista é algo que muito poucos podem dizer que conseguiram."