Processadores escaláveis Intel® Xeon® e Intel® Advanced Matrix Extensions
Cargas de trabalho de aprendizado profundo, como aquelas que dependem de IA generativa, grandes modelos de linguagem (LLMs) e visão computacional podem ser incrivelmente intensas, exigindo altos níveis de desempenho e, muitas vezes, hardware especializado adicional para garantir uma implantação bem-sucedida de IA. Os custos associados desses requisitos podem aumentar rapidamente, e adicionar soluções de hardware dedicadas pode criar camadas desnecessárias de problemas de complexidade e compatibilidade.
Para ajudar a tornar suas cargas de trabalho de aprendizado profundo mais eficientes, econômicas e fáceis de treinar e implantar, o Intel® AMX nos processadores escaláveis Intel® Xeon® oferece aceleração para inferência e treinamento, minimizando a necessidade de hardware especializado.
O Intel® AMX é um dos dois Mecanismos de IA Intel® integrados aos processadores Intel Xeon de 4ª geração, Intel Xeon de 5ª geração e Intel® Xeon® 6 com P-cores que podem ajudar você a aproveitar ao máximo sua CPU para impulsionar cargas de trabalho de treinamento de IA e inferência em escala para obter benefícios, incluindo melhor eficiência, redução dos custos de inferência, treinamento e implantação, e menor custo total de propriedade (TCO). Como um acelerador integrado que reside em todos os núcleos da CPU e está próximo da memória do sistema, o Intel® AMX é frequentemente menos complexo de usar do que aceleradores dedicados, levando a um tempo de retorno mais rápido.
Embora haja muitas maneiras pelas quais as organizações podem apoiar cargas de trabalho de IA avançadas, uma base com processadores escaláveis Intel® Xeon® com aceleradores de IA potentes e integrados pode ajudar você a alcançar seus objetivos de desempenho de treinamento e inferência, reduzindo a complexidade do sistema e os custos operacionais e de implantação para um maior retorno comercial.
Como o Intel® AMX funciona
O Intel® AMX é um bloco de hardware dedicado encontrado no núcleo do processador escalável Intel® Xeon® que ajuda a otimizar e acelerar cargas de trabalho de treinamento e inferência de aprendizado profundo que dependem de cálculo matricial.
O Intel® AMX permite que cargas de trabalho de IA sejam executadas na CPU em vez de descarregá-las para um acelerador dedicado, proporcionando um impulso significativo no desempenho.2 Sua arquitetura suporta os tipos de dados BF16 (treinamento/inferência) e int8 (inferência) e inclui dois componentes principais:
- Blocos: estes consistem em oito registros bidimensionais, cada um com tamanho de 1 kilobyte, que armazenam grandes conjuntos de dados.
- Multiplicação de matriz em blocos (TMUL): o TMUL é um mecanismo acelerador conectado aos blocos que realiza cálculos de multiplicação de matriz para IA.
Juntos, esses componentes permitem que o Intel® AMX armazene mais dados em cada núcleo e processe matrizes maiores em uma única operação. Além disso, o Intel® AMX é arquitetado para ser totalmente extensível e escalável.
Benefícios do Intel® AMX para melhores resultados de negócios
O Intel® AMX permite que os processadores escaláveis Intel® Xeon® aumentem o desempenho de cargas de trabalho de treinamento e inferência de aprendizado profundo equilibrando a inferência, o caso de uso mais proeminente para uma CPU em aplicações de IA, com mais recursos para treinamento.
Muitos clientes da Intel estão aproveitando o Intel® AMX para possibilitar melhores resultados para suas organizações. Focando em cargas de trabalho de IA generativa, os processadores Intel® Xeon® 6 com P-cores podem oferecer desempenho GPT-J-6B (bf16) 2x mais alto em comparação com o Intel Xeon da 5a geração.3 Com os processadores Intel® Xeon® da 5ª geração, os clientes podem experimentar treinamento e inferência até 14x melhores em comparação com os processadores Intel® Xeon® da 3ª Geração.4
Os principais benefícios do Intel® AMX incluem:
- Desempenho aprimorado
A aceleração baseada em CPU pode melhorar a eficiência energética e da utilização de recursos, oferecendo um melhor desempenho pelo mesmo preço.
Por exemplo, o Intel® Xeon® Platinum 8592+ da 5ª geração com Intel® AMX BF16 demonstrou um desempenho de inferência de reconhecimento de fala em tempo real (RNN-T) até 10,7x mais alto e desempenho/watt 7,9x mais alto em comparação com os processadores Intel® Xeon® da 3ª geração com FP32.5 - Menor custo total de propriedade (TCO)
Os processadores escaláveis Intel® Xeon® com Intel® AMX habilitam uma série de melhorias na eficiência que ajudam a diminuir custos, reduzir o TCO e promover metas de sustentabilidade.
Como um acelerador integrado em processadores escaláveis Intel® Xeon® que você já pode ter, o Intel® AMX permite que você maximize os investimentos que já fez e obtenha mais da sua CPU, removendo o custo e a complexidade normalmente associados à adição de um acelerador discreto.
Os processadores escaláveis Intel® Xeon® com Intel® AMX também podem fornecer uma arquitetura de servidor mais econômica em comparação com outras opções disponíveis, oferecendo benefícios de redução do consumo de energia e emissões.
Em uma comparação com os servidores AMD Genoa 9654, os processadores Intel® Xeon® Platinum da 5ª geração com Intel® AMX ofereceram desempenho de inferência de processamento de linguagem natural (BERT-Large) em lotes até 2,69x mais alto e desempenho por watt 2,96x mais alto.6 - Tempo de desenvolvimento reduzido
Para simplificar o processo de desenvolvimento de aplicativos de aprendizado profundo, trabalhamos em estreita colaboração com a comunidade de código aberto, incluindo os projetos TensorFlow e PyTorch, para otimizar frameworks para hardware Intel®, com o upstreaming de nossas mais recentes otimizações e recursos para que estejam imediatamente disponíveis para desenvolvedores. Isso permite que você aproveite os benefícios de desempenho do Intel® AMX com a adição de algumas linhas de código, reduzindo o tempo geral de desenvolvimento.
Também fornecemos acesso a ferramentas de desenvolvimento, bibliotecas e recursos Intel® gratuitos.
Casos de uso de aprendizado profundo do Intel® AMX
O Intel® AMX pode ser implantado em uma ampla gama de casos de uso de aprendizado profundo para fornecer um impulso significativo no desempenho que resulta em maior valor para o usuário final e para a empresa.
- Sistemas de recomendação: use o Intel® AMX como uma solução mais econômica para modelos de recomendação de IA que aumentam a capacidade de resposta de recomendações de produtos, conteúdo e serviços para casos de uso, incluindo comércio eletrônico, redes sociais, entretenimento de streaming e serviços bancários personalizados. Por exemplo, provedores de conteúdo frequentemente usam o Intel® AMX para acelerar a entrega de recomendações e anúncios direcionados de filmes ou livros, ou para oferecer um sistema de recomendação baseado em aprendizado profundo que leva em consideração sinais de comportamento do usuário em tempo real e recursos de contexto, como hora e localização, quase em tempo real. Os processadores Intel® Xeon® da 5ª geração estão oferecendo desempenho de inferência do sistema de recomendação (DLRM) em lote até 8,7x mais alto e desempenho/watt 6,2x mais alto em comparação com os processadores Intel® Xeon® da 3ª geração com FP32.7
- Processamento de linguagem natural (PLN): acelere casos de uso baseados em texto para apoiar e escalar aplicativos de PLN, como aqueles usados em saúde e ciências da vida para extrair percepções de notas clínicas ou processar grandes quantidades de dados médicos para ajudar na detecção precoce de problemas de saúde e melhorar a prestação de cuidados. Em serviços financeiros, o Intel® AMX pode ser usado para melhorar a capacidade de resposta de chatbots online para ajudar a conectar clientes com as informações de que precisam mais rapidamente, enquanto libera funcionários limitados para atender solicitações mais complexas.
Semelhante aos benefícios de economia de custo para sistemas de recomendação, o Intel® AMX pode ser uma solução mais econômica para PLN. Por exemplo, quando usado para implantar o modelo de linguagem natural de IA BERT-Large, o Intel® AMX nos processadores Intel® Xeon® da 4ª geração proporcionou uma economia de até 79% quando comparado com o AMD Genoa 9354.8 - IA generativa: aproveite o Intel® AMX para acelerar o desempenho de cargas de trabalho de treinamento e inferência de aprendizado profundo para casos de uso de IA generativa, como geração de conteúdo, incluindo imagens, vídeos e áudio, tradução de idiomas, data augmentation e criação de resumos. Por exemplo, uma avaliação de desempenho dos processadores Intel® Xeon® Platinum 8480+ com Intel® AMX para tipos de dados BF16 em comparação com os processadores Intel® Xeon® Platinum 8380 para tipos de dados FP32 reduziu o tempo de geração de texto para imagem do Stable Diffusion para menos de cinco segundos e o ajuste fino dos modelos do Stable Diffusion para menos de cinco minutos.9
- Visão computacional: reduza o tempo desde a captura de vídeo e imagem até percepções e ações para oferecer experiências excepcionais aos clientes e ajudar sua empresa a melhorar a eficiência e reduzir custos operacionais. Por exemplo, em lojas de varejo, o Intel® AMX pode ajudar a minimizar o tempo das transações com clientes usando um checkout sem fricção habilitado por visão computacional e suporte para monitoramento quase em tempo real de prateleiras para rastrear dados de inventário e notificar instantaneamente a equipe quando um item estiver fora de estoque. Na fabricação, a análise acelerada de vídeo a partir de câmeras de visão computacional em braços robóticos pode ajudar a possibilitar economia de tempo e custo com recursos automatizados de detecção de defeitos.
Para encontrar exemplos adicionais de como os clientes Intel® estão usando o Intel® AMX para impulsionar melhores resultados empresariais, acesse nossa biblioteca de clientes em destaque.
Comece a usar o Intel® AMX
Oferecemos uma ampla variedade de recursos de desenvolvimento para ajudar você a aproveitar o acelerador Intel® AMX integrado em seus processadores escaláveis Intel® Xeon®.
Para começar, veja as instruções passo a passo para aumentar o desempenho com o Intel® AMX nos seguintes guias:
- Guia de início rápido para otimizações da Intel® AI: fornece instruções para melhorar o desempenho da carga de trabalho de IA com bibliotecas e frameworks de IA otimizados Intel®. Este guia inclui instruções passo a passo para TensorFlow, XGBoost, PyTorch e muito mais.
- Guia de ajuste para melhorar o desempenho de IA em aprendizado profundo: oferece recomendações para ajustar processadores para kits de ferramentas de IA otimizados Intel® para alcançar o melhor desempenho possível.
Para informações técnicas mais detalhadas, tutoriais, exemplos de código e módulos de teste, acesse:
- Estruturas de IA do Intel® AMX
- Kits de referência de IA do Intel® AMX
- Guia de referência do desenvolvedor do Intel® AMX
- Exemplo de código do Intel® AMX
Você pode acessar todos os nossos guias de ajuste para processadores escaláveis Intel® Xeon® em nosso catálogo de ferramentas de software para desenvolvedor.
Para ajudar você a simplificar seus esforços de desenvolvimento de IA, oferecemos nossos kits de ferramentas, componentes e otimizações do Intel® oneAPI, incluindo:
- Intel® oneAPI AI Analytics Toolkit
- Intel® oneAPI Math Kernel Library
- Intel® Extension for TensorFlow
- Otimizações do PyTorch da Intel
Experimente hoje com o Intel® AMX
Além de consultar nossos materiais de referência, você pode experimentar com o hardware Intel®, o Intel® AMX e outros recursos de aceleração integrados usando a Intel® Developer Cloud.
Esta plataforma online gratuita para aprendizagem, prototipagem, testes e execução de cargas de trabalho também inclui suporte para vários kits de ferramentas, ferramentas e bibliotecas de desenvolvimento de software Intel®.
Expanda e aprimore os recursos de IA na sua CPU com o Intel® AMX
À medida que sua organização busca soluções para atender às crescentes demandas de computação para suportar cargas de trabalho de treinamento e inferência de aprendizado profundo, o Intel® AMX pode ajudar a aumentar o desempenho usando o hardware Intel® que você já pode ter, sem o custo e a complexidade que vêm com hardware especializado adicional e com tempo de desenvolvimento comparavelmente menor, usando otimizações Intel® em frameworks de código aberto populares e acesso a ferramentas e recursos de desenvolvimento Intel® gratuitos.