Por Jeff McVeigh
À medida que embarcamos na era exascalar e corremos em direção à zettascale, a contribuição da indústria de tecnologia para as emissões globais de carbono também está crescendo. Estima-se que até 2030, entre 3% e 7%1 da produção global de energia será consumida por data centers, sendo a infraestrutura computacional um dos principais impulsionadores do novo uso de eletricidade.
Este ano, a Intel se comprometeu a alcançar emissões líquidas de gases de efeito estufa em nossas operações globais até 2040 e desenvolver soluções tecnológicas mais sustentáveis. Acompanhar as demandas insaciáveis para a computação, ao mesmo tempo em que cria um futuro sustentável, é um dos maiores desafios para a computação de alto desempenho (HPC). Embora assustador, é possível se abordarmos cada parte da pilha de computação HPC – silício, software e sistemas.
Este é o coração da minha palestra no ISC 2022 em Hamburgo, Alemanha. (Veja o replay no topo desta página.)
Comece com arquitetura computacional silício e heterogênea
Temos um roteiro agressivo do HPC planejado até 2024 que fornecerá um portfólio diversificado de arquiteturas heterogêneas. Essas arquiteturas nos permitirão melhorar o desempenho por ordens de magnitude, reduzindo as demandas de energia em cargas de trabalho de propósito geral e emergentes, como IA, criptografia e análises.
O processador Intel® Xeon® codinome Sapphire Rapids com Memória de Alta Largura de Banda (HBM) é um ótimo exemplo de como estamos aproveitando tecnologias avançadas de embalagem e inovações de silício para trazer desempenho substancial, largura de banda e melhorias de economia de energia para o HPC. Com até 64 gigabytes de memória HBM2e de alta largura de banda no pacote e aceleradores integrados à CPU, somos capazes de liberar cargas de trabalho ligadas à largura de banda de memória, ao mesmo tempo em que oferecemos melhorias significativas de desempenho nos principais casos de uso do HPC. Ao comparar processadores Intel® Xeon® Scalable de 3ª geração com os próximosprocessadores HBM do Sapphire Rapids,estamos vendo aumentos de desempenho de duas a três vezes em todas as cargas de trabalho de pesquisa meteorológica, energia, fabricação e física2. Na palestra, o CTO de Ansys, Prith Banerjee, também mostra que o HBM Sapphire Rapids oferece um aumento de desempenho de até 2x nas cargas de trabalho do mundo real da Ansys Fluent e do ParSeNet3.
A densidade computacional é outro imperativo à medida que pressionamos por ordens de ganhos de desempenho de magnitude em cargas de trabalho de supercomputação de HPC e IA. Nossa primeira unidade de processamento gráfico (GPU) de data center da Intel, codinome Ponte Vecchio, já está superando a concorrência por aplicativos complexos de serviços financeiros e inferência de IA e cargas de trabalho de treinamento. Também mostramos que Ponte Vecchio está acelerando a simulação de alta fidelidade em 2x com o OpenMC4.
Não vamos parar aqui. Hoje estamos anunciando nosso sucessor para esta GPU de data center, codinome Ponte Rialto. Ao evoluir a arquitetura Ponte Vecchio e combinar telhas aprimoradas com a tecnologia de nó de próximo processo, a Ponte Rialto oferecerá uma densidade, desempenho e eficiência significativamente maiores, ao mesmo tempo em que fornecerá consistência de software.
Olhando para frente, Falcon Shores é a próxima grande inovação de arquitetura em nosso roteiro, trazendo as arquiteturas x86 CPU e Xe GPU juntas em um único soquete. Esta arquitetura é voltada para 2024 e projetada para oferecer benefícios de mais de 5x desempenho por watt, densidade computacional de 5x, capacidade de memória 5x e melhorias na largura de banda5.
Princípios de uma estratégia de software bem-sucedida: Open, Choice, Trust
Silício é apenas areia sem software para trazê-lo à vida. Nossa abordagem para o software é facilitar o desenvolvimento aberto em toda a pilha e fornecer ferramentas, plataformas e IP de software para ajudar os desenvolvedores a serem mais produtivos e produzir códigos escaláveis, de melhor desempenho e mais eficientes que possam aproveitar as últimas inovações de silício sem o ônus de refatorar o código. A iniciativa do setor oneAPI fornece aos desenvolvedores do HPC uma programação de arquitetura cruzada para que o código possa ser direcionado para CPUs, GPUs e outros aceleradores especializados de forma transparente e portal.
Existem hoje mais de 20 Centros de Excelência da AAPI em instituições líderes em pesquisa e acadêmicos em todo o mundo, e eles estão fazendo progressos significativos. Por exemplo, Simon McIntosh-Smith e sua equipe no Departamento de Ciência da Universidade de Bristol estão desenvolvendo as melhores práticas para alcançar a portabilidade de desempenho em exascale usando a oneAPI e a camada de abstração SYCL do Grupo Khronos para programação de arquitetura cruzada. Seu trabalho garantirá que o código científico possa alcançar alto desempenho em sistemas de supercomuta heterogêneo maciços em todo o mundo.
Unindo: Sistemas para computação heterogênea sustentável
À medida que as cargas de trabalho do data center e do HPC se movem cada vez mais em direção a arquiteturas desagregadas e computação heterogênea, precisaremos de ferramentas que possam nos ajudar a gerenciar de forma eficaz esses complexos e diversos ambientes de computação.
Hoje, estamos introduzindo o Intel® XPU Manager, uma solução de código aberto para monitorar e gerenciar GPUs de data center intel local e remotamente. Ele foi projetado para simplificar a administração, para maximizar a confiabilidade e o tempo de atividade, executando diagnósticos abrangentes, para melhorar a utilização e para executar atualizações de firmware.
Um sistema de arquivos DAOS (Distributed Asynchronous Object Storage, armazenamento de objetos assíncronso distribuído) fornece otimizações em nível de sistema para as tarefas de fome de energia de mover e armazenar dados. O DAOS tem um enorme impacto no desempenho do sistema de arquivos, tanto melhorando o tempo geral de acesso quanto reduzindo a capacidade necessária para o armazenamento para reduzir as pegadas do data center e aumentar a eficiência energética. Em resultados de I/O 500 relativos ao Lustre, o DAOS obteve um aumento de 70x6 no desempenho do sistema de arquivos de gravação dura.
Abordando o Desafio de Sustentabilidade do HPC
Estamos orgulhosos de fazer parcerias com clientes com mentes semelhantes e instituições de pesquisa líderes em todo o mundo para alcançar um HPC mais sustentável e aberto. Exemplos recentes incluem nossa parceria com o Centro de Supercomputação de Barcelona para criar um pioneiro laboratório de zettascale RISC-V, e nossa colaboração contínua com a Universidade de Cambridge e a Dell para evoluir o atual Laboratório Exascale para o novo Cambridge Zettascale Lab. Esses esforços baseiam-se em nossos planos para criar um robusto ecossistema de inovação da UE para o futuro da computação.
A questão é que nenhuma empresa pode fazer isso sozinha. Todo o ecossistema precisa se inclinar igualmente, através da fabricação, silício, interconexão, software e sistemas. Fazendo isso juntos, podemos transformar um dos maiores desafios do HPC do século na oportunidade do século – e mudar o mundo para as gerações futuras.
Jeff McVeigh é vice-presidente e gerente geral do Super Compute Group na Intel Corporation.
Avisos e avisos:
1 Hipóteses de Andrae para uso primário de energia, uso de eletricidade e emissões de CO2 da computação global e sua participação no total entre 2020 e 2030, WSEAS Trans Power Syst, 15 (2020)
2 Como medido pelo seguinte:
Cloverleaf
-
Teste pela Intel a partir de 26/04/2022. 1-node, 2x CPU Intel® Xeon® Platinum 8360Y, 72 núcleos, HT On, Turbo On, Memória Total 256GB (16x16GB DDR4 3200 MT/s ), SE5C6200.86B.0021.D40.2101090208, Ubuntu 20.04, Kernel 5.10, 0xd0002a0, ifort 2021.5, Intel MPI 2021.5.1, botões de construção: -xCORE-AVX512 –qopt-zmm-use=high
-
Teste pela Intel a partir de 19/04/22. 1-node, 2x Pré-produção Processador escalável Intel® Xeon® com codinome Sapphire Rapids Plus HBM, >40 núcleos, HT ON, Turbo ON, Memória Total 128 GB (HBM2e a 3200 MHz), Versão BIOS EGSDCRB1.86B.0077.D11.2203281354, ucode revision=0x83000200, CentOS Stream 8, Linux versão 5.16, ifort 2021.5, Intel MPI 2021.5.1, botões de compilação: -xCORE-AVX512 –qopt-zmm-use=high
OpenFOAM
-
Teste pela Intel a partir de 26/01/2022. 1-node, 2x CpU Intel® Xeon® Platinum 8380), 80 núcleos, HT On, Turbo On, Memória Total 256 GB (16x16GB 3200MT/s, Dual-Rank), BIOS Versão SE5C6200.86B.0020.P23.2103261309, 0xd000270, Rocky Linux 8.5 , Linux versão 4.18., OpenFOAM® v1912, Motocicleta 28M @ 250 iterações; Construir notas: Ferramentas: Intel Parallel Studio 2020u4, Build knobs: -O3 -ip -xCORE-AVX512
-
Teste pela Intel a partir de 26/01/2022 1-node, 2x Pré-produção Processador Escalável Intel® Xeon® Cedido de Sapphire Rapids Plus HBM, >40 núcleos, HT Off, Turbo Off, Memória Total de 128 GB (HBM2e a 3200 MHz), plataforma de pré-produção e BIOS, CentOS 8, Linux versão 5.12, OpenFOAM® v1912, Moto 28M @ 250 iterações; Construir notas: Ferramentas: Intel Parallel Studio 2020u4, Build knobs: -O3 -ip -xCORE-AVX512
WRF
-
Teste pela Intel a partir de 05/03/2022. 1-nó, 2x CPU Intel® Xeon® 8380, 80 núcleos, HT On, Turbo On, Memória Total 256 GB (16x16GB 3200MT/s, Dual-Rank), Versão BIOS SE5C6200.86B.0020.P23.2103261309, revisão ucode=0xd000270, Rocky Linux 8.5, versão Linux 4.18, WRF v4.2.2
-
Teste pela Intel a partir de 05/03/2022. 1-nó, 2x Pré-produção Processador Escalável Intel® Xeon® codinome Sapphire Rapids Plus HBM, >40 núcleos, HT ON, Turbo ON, Memória Total 128 GB (HBM2e a 3200 MHz), Versão BIOS EGSDCRB1.86B.0077.D11.2203281354, revisão ucode=0x83000200, CentOS Stream 8, Linux versão 5.16, WRF v4.2.2
YASK
-
Teste pela Intel a partir de 05/9/2022. 1-node, 2x CpU Intel® Xeon® Platinum 8360Y, 72 núcleos, HT On, Turbo On, Memória Total 256GB (16x16GB DDR4 3200 MT/s ), SE5C6200.86B.0021.D40.2101090208, Rocky linux 8.5, kernel 4.18.0, 0xd000270, Botões de construção: make -j YK_CXX='mpiicpc -cxx=icpx' arch=avx2 stencil=iso3dfd radius=8,
-
Teste pela Intel a partir de 05/03/22. 1-node, 2x Pré-produção Processador escalável Intel® Xeon® com codinome Sapphire Rapids Plus HBM, >40 núcleos, HT ON, Turbo ON, Memória Total 128 GB (HBM2e a 3200 MHz), Versão BIOS EGSDCRB1.86B.0077.D11.2203281354, ucode revision=0x83000200, CentOS Stream 8, Linux versão 5.16, Botões de compilação: fazer -j YK_CXX='mpiicpc -cxx=icpx' arch=avx2 stencil=iso3dfd radius=8,
3 Ansys Fluent
-
Teste pela Intel a partir de 2/2022 1-node, 2x CpU Intel ® Xeon ® Platinum 8380, 80 núcleos, HT On, Turbo On, Memória Total 256 GB (16x16GB 3200MT/s, Dual-Rank), BIOS Versão SE5C6200.86B.0020.P23.2103261309, revisão ucode=0xd000270, Rocky Linux 8.5 , Versão Linux 4.18, Ansys Fluent 2021 R2 Aircraft_wing_14m; Monte notas: Lançamento comercial usando compilador Intel 19.3 e Intel MPI 2019u
-
Teste pela Intel a partir de 2/2022 1-node, 2x Pré-produção Intel® Xeon® Scalable Processor nomeia Sapphire Rapids com HBM, >40 núcleos, HT Off, Turbo Off, Memória Total 128 GB (HBM2e a 3200 MHz), plataforma de pré-produção e BIOS, CentOS 8, Versão Linux 5.12, Ansys Fluent 2021 R2 Aircraft_wing_14m; Monte notas: Lançamento comercial usando compilador Intel 19.3 e Intel MPI 2019u8
Ansys ParSeNet
-
Teste pela Intel a partir de 24/05/2022. 1-node, 2x CPU Intel® Xeon® Platinum 8380, 80 núcleos, HT On, Turbo On, Memória Total 256GB (16x16GB DDR4 3200 MT/s [3200 MT/s]), SE5C6200.86B.0021.D40.2101090208, Ubuntu 20.04.1 LTS, 5.10, ParSeNet (SplineNet), PyTorch 1.11.0, Torch-CCL 1.2.0, IPEX 1.10.0, MKL (2021.4-Product Build 20210904), oneDNN (v2.5.0)
-
Teste pela Intel a partir de 18/04/2022. 1-node, 2x Pré-produção Processador escalável Intel® Xeon® com codinome Sapphire Rapids Plus HBM, 112 núcleos, HT On, Turbo On, Memória Total 128GB (HBM2e 3200 MT/s), EGSDCRB1.86B.0077.D11.2203281354, CentOS Stream 8, 5.16, ParSeNet (SplineNet), PyTorch 1.11.0, Torch-CCL 1.2.0, IPEX 1.10.0, MKL (2021.4-Product Build 20210904), oneDNN (v2.5.0)