O que há de novo: Hoje, a MLCommons publicou resultados de seu parâmetro de referência de desempenho MLPerf Inference v3.1 para GPT-J, o modelo de linguagem de 6 bilhões de parâmetros grande, bem como visão computacional e modelos de processamento de linguagem natural. A Intel submeteu resultados para aceleradores Habana® Gaudi®2, Intel® Xeon® processadores escaláveis Intel® Xeon® 4ª Geração e Intel® Xeon® CPU Série Max. Os resultados mostram o desempenho competitivo da Intel para a inferência de IA e reforçam o compromisso da empresa em tornar a inteligência artificial mais acessível em escala no conjunto de cargas de trabalho de IA — do cliente e da borda à rede e nuvem.
"Como demonstrado nos resultados recentes do MLCommons, temos um portfólio de produtos de IA forte e competitivo, projetado para atender às necessidades dos nossos clientes para inferência e treinamento de aprendizado profundo de alto desempenho e alta eficiência, para o espectro completo de modelos de IA – do menor ao maior – com preço/desempenho líderes."
Por que importa: a construção da atualização do treinamento de IA do MLCommons a partir de junho e os parâmetros de referência de desempenho hugging face que validam que o Gaudi2 pode superar o H100 da Nvidia em um modelo de linguagem de visão de última geração, os resultados de hoje reforçam ainda mais que a Intel oferece a única alternativa viável para as necessidades de computação H100 e A100 da Nvidia para as necessidades de computação de IA.
Cada cliente tem considerações únicas, e a Intel está trazendo IA para todos os lugares com produtos que podem abordar inferência e treinamento em toda a linha de cargas de trabalho de IA. Os produtos de IA da Intel oferecem aos clientes flexibilidade e escolha ao escolher uma solução de IA ideal com base em suas próprias metas de desempenho, eficiência e custo, enquanto os ajudam a romper com ecossistemas fechados.
Sobre os resultados de Habana Gaudi2: Os resultados de desempenho de inferência Habana Gaudi2 para GPT-J fornecem uma forte validação de seu desempenho competitivo.
- Desempenho de inferência Gaudi2 em GPT-J-99 e GPT-J-99.9 para consultas a servidores e amostras off-line de 78,58 por segundo e 84,08 por segundo, respectivamente.
- A Gaudi2 oferece desempenho atraente em comparação com a H100 da Nvidia, com H100 mostrando uma ligeira vantagem de 1,09x (servidor) e desempenho de 1,28x (off-line) em relação ao Gaudi2.
- Gaudi2 supera a A100 da Nvidia em 2,4x (servidor) e 2x (offline).
- O envio da Gaudi2 empregou FP8 e atingiu 99,9% de precisão nesse novo tipo de dados.
Com as atualizações de software Gaudi2 lançadas a cada seis a oito semanas, a Intel espera continuar fornecendo avanços de desempenho e cobertura de modelo expandida em benchmarks MLPerf.
Sobre os resultados Intel Xeon: A Intel submeteu todos os sete parâmetros de referência de inferência, incluindo GPT-J, em processadores escaláveis Intel Xeon da 4ª Geração. Esses resultados mostram um excelente desempenho para cargas de trabalho de IA de uso geral, incluindo visão, processamento de linguagem, modelos de tradução de fala e áudio, bem como a recomendação DLRM v2 muito maior e os modelos ChatGPT-J. Além disso, a Intel continua sendo a única fornecedor a enviar resultados de CPU pública com software de ecossistema de aprendizagem profunda padrão do setor.
- O processador Intel Xeon Scalable da 4ª Geração é ideal para construir e implantar cargas de trabalho de IA de uso geral com os frameworks e bibliotecas de IA mais populares. Para a tarefa de resumo de 100 palavras do GPT-J de um artigo de notícias de aproximadamente 1.000 a 1.500 palavras, os processadores Intel Xeon da 4ª Geração resumiram dois parágrafos por segundo no modo off-line e um parágrafo por segundo no modo servidor em tempo real.
- Pela primeira vez, a Intel enviou resultados de MLPerf para a CPU Série Max Intel Xeon, que oferece até 64 gigabytes (GB) de memória de alta largura de banda. Para GPT-J, foi a única CPU capaz de alcançar 99,9% de precisão, o que é fundamental para aplicações para as quais a maior precisão é de desempenho primordial.
- A Intel colaborou com seus clientes de fabricantes de equipamentos originais (OEM) para fornecer seus próprios envios, apresentando ainda mais a escalabilidade do desempenho da IA e a ampla disponibilidade de servidores de uso geral com processadores Intel Xeon que podem atender aos acordos de nível de serviço do cliente (SLAs).
O que vem a seguir: o MLPerf, geralmente considerado como a referência mais respeitável para o desempenho de IA, permite comparações de desempenho justas e repetíveis. A Intel prevê enviar novos resultados de desempenho de treinamento de IA para o próximo benchmark do MLPerf. As atualizações de desempenho contínuas mostram o compromisso da Intel em apoiar clientes e abordar todos os nós do contínuo de IA: desde processadores de IA de baixo custo até aceleradores de hardware e GPUs de IA de desempenho mais alto para a rede, nuvem e clientes corporativos.
Mais contexto: métricas de desempenho baseadas na inferência MLPerf v.31 (resultados de benchmark) | Anúncio do MLCommons