Intel oferece os principais resultados de desempenho de IA no MLPerf v2.1 Industry Benchmark para treinamento em DL

O processador Intel Xeon Scalable de 4ª geração e o Habana Gaudi2 marcam pontos no treinamento DL.

Baixe todas as imagens

Quais as novidades: Hoje, a MLCommons publicou os resultados de seu benchmark de desempenho de IA do setor, no qual o processador Intel® Xeon® Scalable de 4ª geração (codinome Sapphire Rapids) e o acelerador de aprendizado profundo dedicado Habana® Gaudi®2 registraram resultados impressionantes de treinamento.

"Estou orgulhosa do progresso contínuo de nossa equipe desde a última vez que enviamos resultados de liderança no MLPerf em junho. O processador Xeon Scalable de 4ª geração da Intel e o acelerador de IA Gaudi 2 suportam uma ampla gama de funções de IA e oferecem desempenho de liderança para clientes que exigem treinamento de aprendizado profundo e cargas de trabalho em larga escala."

–Sandra Rivera, vice-presidente executiva da Intel e gerente geral do Datacenter e grupo de IA

Por que é importante:Em muitos casos de uso de data center, o aprendizado profundo faz parte de um pipeline complexo de aprendizado de máquina e análise de dados em execução em servidores baseados em Xeon que também são usados para executar outros aplicativos e são adaptáveis às demandas de carga de trabalho que mudam ao longo do tempo. É nesses casos de uso que o Xeon Scalable oferece o melhor custo total de propriedade (TCO) e utilização durante todo o ano.

O processador Intel Xeon Scalabel de 4ª geração com Intel® Advanced Matrix Extensions (AMX), um novo acelerador de IA integrado, permite que os clientes estendam a plataforma de servidor Xeon de uso geral para cobrir ainda mais casos de uso de aprendizado profundo, incluindo treinamento de aprendizado profundo e ajuste fino. O AMX é um mecanismo de multiplicação de matriz dedicado incorporado em todos os núcleos dos processadores Intel Xeon Scalable de 4ª geração. Esse mecanismo de IA dedicado é otimizado para oferecer um desempenho de modelo de treinamento de aprendizado profundo de geração para geração até 6x maior usando estruturas padrão do setor. 1

Nos casos em que o servidor ou um cluster de servidores é predominantemente usado para treinamento de aprendizado profundo e computação de inferência, o acelerador Habana Gaudi2 é o acelerador ideal. Ele foi projetado especificamente para oferecer o melhor desempenho de aprendizado profundo e TCO para esses casos de uso dedicados.

Sobre os resultados do Xeon: A Intel apresentou os resultados do MLPerf Training v2.1 na linha de produtos de processadores Intel Xeon Scalable de 4ª geração em uma variedade de cargas de trabalho. O processador escalável Intel Xeon foi a única CPU enviada para MLPerf v2.1, demonstrando mais uma vez que é a melhor CPU de servidor para treinamento de IA, o que permite que os clientes usem sua infraestrutura compartilhada para treinar em qualquer lugar, a qualquer hora. Os processadores escaláveis Intel Xeon de 4ª geração com Intel AMX oferecem esse desempenho pronto para uso em várias estruturas padrão do setor e integrados a ferramentas de ciência de dados de ponta a ponta e a um amplo ecossistema de soluções inteligentes de parceiros. Os desenvolvedores só precisam usar as versões de estrutura mais recentes do TensorFlow e do PyTorch para liberar esse desempenho. O Intel Xeon Scalable agora pode executar qualquer carga de trabalho de IA.

Os resultados da Intel mostram que os processadores Intel Xeon Scalable de 4ª geração estão expandindo o alcance das CPUs de uso geral para treinamento em IA, para que os clientes possam fazer mais com os Xeons que já estão executando seus negócios. Isto é especialmente verdadeiro para o treinamento de modelos médios a pequenos ou transferência de aprendizagem (também conhecido como ajuste fino). Os resultados do DLRM são ótimos exemplos de onde conseguimos treinar o modelo em menos de 30 minutos (26,73) com apenas quatro nós de servidor. Mesmo para modelos de médio e grande porte, os processadores Xeon de 4ª geração poderiam treinar os modelos BERT e ResNet-50 em menos de 50 minutos (47,26) e menos de 90 minutos (89,01), respectivamente. Os desenvolvedores agora podem treinar pequenos modelos de aprendizado profundo durante uma pausa para o café, modelos de médio porte durante o almoço e usar esses mesmos servidores conectados a sistemas de armazenamento de dados para utilizar outras técnicas de análise, como o aprendizado de máquina clássico à tarde. Isso permite que a empresa conserve processadores de aprendizado profundo, como o Gaudi2, para os modelos maiores e mais exigentes.

Sobre os resultados para Habana Gaudi2: O Gaudi2, o processador de aprendizado profundo de segunda geração da Habana, foi lançado em maio e apresentou resultados de liderança no treinamento MLPerf v2.0 10 dias depois. O Gaudi2, produzido em processo de 7 nanômetros e com 24 núcleos de processador tensor, 96 GB de memória HBM2e integrada e 24 portas gigabit Ethernet integradas, mostrou novamente o desempenho líder do servidor de oito placas no benchmark em comparação com o A100 da Nvidia.

Como mostrado aqui, o Gaudi2 melhorou em 10% para o tempo de treinamento no TensorFlow para BERT e ResNet-50, e relatou resultados no PyTorch, que alcançou 4% e 6% de vantagem TTT para BERT e ResNet-50, respectivamente, em relação à submissão do Gaudi2 de maio. Ambos os conjuntos de resultados foram submetidos nas categorias fechada e disponível.

Esses rápidos avanços ressaltam a singularidade da arquitetura de aprendizado profundo Gaudi2 construída especificamente para esse fim, a crescente maturidade do software Gaudi2 e a expansão da pilha de software Habana® SynapseAI®, otimizada para desenvolvimento e implantação de modelos de aprendizado profundo.

Como mais uma evidência da força dos resultados, o Gaudi2 continuou a superar o Nvidia A100 para BERT e ResNet-50, como fez na submissão de maio e mostrado aqui. Além disso, é notável que o H100 ResNet-50 TTT da Nvidia é apenas 11% mais rápido que o desempenho do Gaudi2. E embora o H100 seja 59% mais rápido que o Gaudi2 no BERT, vale a pena notar que a Nvidia relatou o BERT TTT no tipo de dados FP8, enquanto o Gaudi2 TTT está no tipo de dados BF16 padrão e verificado (com ativação FP8 nos planos de software para o Gaudi2). O Gaudi2 oferece uma melhoria significativa no preço-desempenho em comparação com o A100 e o H100.

A equipe da Intel e da Habana está ansiosa para suas próximas submissões MLPerf para as soluções de portfólio de IA da Intel.

Mais contexto: Métricas de desempenho baseadas nos resultados do benchmark de treinamento MLPerf v2.1. | Veja o anúncio de hoje da MLCommons sobre seu mais recente benchmark. | Para obter informações sobre os processadores Intel Xeon Scalable de 4ª geração, confira "Chalk Talk Covers Strategy and Design Behind 4th Gen Intel Xeon Scalable Processors" (Chalk Talk aborda estratégia e design por trás dos processadores Intel Xeon Scalable de 4ª geração). | Para obter informações sobre o Gaudi2, consulte o blog de hoje, o site e o vídeo de demonstração ao vivo da conferência Intel Innovation.

As letras miúdas:

1Ver reivindicação [42] em https://edc.intel.com/content/www/br/pt/products/performance/benchmarks/vision-2022/

Avisos legais e isenções de responsabilidade
O desempenho varia de acordo com o uso, a configuração e outros fatores. Saiba mais em www.Intel.com/PerformanceIndex.
Os resultados de desempenho são baseados em testes realizados nas datas especificadas nas configurações e podem não incluir todas as atualizações disponíveis publicamente. Consulte o fabricante para obter os detalhes de configuração. Nenhum produto ou componente pode ser totalmente seguro.
Os custos e resultados podem variar.
As tecnologias Intel podem exigir ativação de hardware, software ou de serviços.