Uma pessoa de pé no final de uma fileira de servidores olhando para pontos de dados azuis brilhantes projetados em uma parede distante

O que é o Intel® Advanced Matrix Extensions (Intel® AMX)?

Expanda, simplifique e acelere seus recursos de IA para atender às demandas de computação para cargas de trabalho de aprendizado profundo com este acelerador integrado nas gerações mais recentes dos processadores escaláveis Intel® Xeon®.1

Principais lições

  • O Intel® AMX faz parte dos Intel® AI Engines disponíveis nas gerações mais recentes dos processadores escaláveis Intel® Xeon®.

  • O Intel® AMX acelera cargas de trabalho de treinamento e inferência de aprendizado profundo e minimiza a necessidade de hardware especializado adicional.

  • As ferramentas de desenvolvedor e os recursos de capacitação Intel® ajudam a facilitar a utilização do Intel® AMX.

author-image

Por

Processadores escaláveis Intel® Xeon® e Intel® Advanced Matrix Extensions

Cargas de trabalho de aprendizado profundo, como aquelas que dependem de IA generativa, grandes modelos de linguagem (LLMs) e visão computacional podem ser incrivelmente intensas, exigindo altos níveis de desempenho e, muitas vezes, hardware especializado adicional para garantir uma implantação bem-sucedida de IA. Os custos associados desses requisitos podem aumentar rapidamente, e adicionar soluções de hardware dedicadas pode criar camadas desnecessárias de problemas de complexidade e compatibilidade.

Para ajudar a tornar suas cargas de trabalho de aprendizado profundo mais eficientes, econômicas e fáceis de treinar e implantar, o Intel® AMX nos processadores escaláveis Intel® Xeon® oferece aceleração para inferência e treinamento, minimizando a necessidade de hardware especializado.

O Intel® AMX é um dos dois Intel® AI Engines integrados aos processadores escaláveis Intel® Xeon® que podem ajudar a aproveitar ao máximo sua CPU para impulsionar cargas de trabalho de inferência e treinamento de IA em escala para obter benefícios, incluindo melhor eficiência, redução dos custos de inferência, treinamento e implantação, e menor custo total de propriedade (TCO). Como um acelerador integrado que reside em todos os núcleos da CPU e está próximo da memória do sistema, o Intel® AMX é frequentemente menos complexo de usar do que aceleradores dedicados, levando a um tempo de retorno mais rápido.

Embora haja muitas maneiras pelas quais as organizações podem apoiar cargas de trabalho de IA avançadas, uma base com processadores escaláveis Intel® Xeon® com aceleradores de IA potentes e integrados pode ajudar você a alcançar seus objetivos de desempenho de treinamento e inferência, reduzindo a complexidade do sistema e os custos operacionais e de implantação para um maior retorno comercial.

Como o Intel® AMX funciona

O Intel® AMX é um bloco de hardware dedicado encontrado no núcleo do processador escalável Intel® Xeon® que ajuda a otimizar e acelerar cargas de trabalho de treinamento e inferência de aprendizado profundo que dependem de cálculo matricial.

O Intel® AMX permite que cargas de trabalho de IA sejam executadas na CPU, em vez de descarregá-las para um acelerador dedicado, proporcionando um impulso significativo no desempenho.2 Sua arquitetura suporta os tipos de dados BF16 (treinamento/inferência) e int8 (inferência) e inclui dois componentes principais:

  • Blocos: estes consistem em oito registros bidimensionais, cada um com tamanho de 1 kilobyte, que armazenam grandes conjuntos de dados.
  • Multiplicação de matriz em blocos (TMUL): o TMUL é um mecanismo acelerador conectado aos blocos que realiza cálculos de multiplicação de matriz para IA.

Juntos, esses componentes permitem que o Intel® AMX armazene mais dados em cada núcleo e processe matrizes maiores em uma única operação. Além disso, o Intel® AMX é arquitetado para ser totalmente extensível e escalável.

Benefícios do Intel® AMX para melhores resultados de negócios

O Intel® AMX permite que os processadores escaláveis Intel® Xeon® aumentem o desempenho de cargas de trabalho de treinamento e inferência de aprendizado profundo equilibrando a inferência, o caso de uso mais proeminente para uma CPU em aplicações de IA, com mais recursos para treinamento.

Muitos clientes da Intel estão aproveitando o Intel® AMX para possibilitar melhores resultados para suas organizações. Com os processadores Intel® Xeon® da 5ª Geração, os clientes podem experimentar treinamento e inferência até 14x melhores em comparação com os processadores Intel® Xeon® da 3ª Geração.3

Os principais benefícios do Intel® AMX incluem:

  • Desempenho aprimorado
    A aceleração baseada em CPU pode melhorar a eficiência energética e da utilização de recursos, oferecendo um melhor desempenho pelo mesmo preço.
    Por exemplo, o Intel® Xeon® Platinum 8592+ da 5ª Geração com Intel® AMX BF16 mostrou um desempenho de inferência de reconhecimento de fala em tempo real (RNN-T) até 10,7x mais alto e desempenho/watt 7,9x mais alto em comparação com os processadores Intel® Xeon® da 3ª Geração com FP32.4
  • Menor custo total de propriedade (TCO)
    Os processadores escaláveis Intel® Xeon® com Intel® AMX habilitam uma série de melhorias na eficiência que ajudam a diminuir custos, reduzir o TCO e promover metas de sustentabilidade.
    Como um acelerador integrado em processadores escaláveis Intel® Xeon® que você já pode ter, o Intel® AMX permite que você maximize os investimentos que já fez e obtenha mais da sua CPU, removendo o custo e a complexidade normalmente associados à adição de um acelerador discreto.
    Os processadores escaláveis Intel® Xeon® com Intel® AMX também podem fornecer uma arquitetura de servidor mais econômica em comparação com outras opções disponíveis, oferecendo benefícios de redução do consumo de energia e emissões.
    Em uma comparação com os servidores AMD Genoa 9654, os processadores Intel® Xeon® Platinum da 5ª Geração com Intel® AMX ofereceram desempenho de inferência de processamento de linguagem natural (BERT-Large) em lotes até 2,69x mais alto e desempenho por watt 2,96x mais alto.5
  • Tempo de desenvolvimento reduzido
    Para simplificar o processo de desenvolvimento de aplicativos de aprendizado profundo, trabalhamos em estreita colaboração com a comunidade de código aberto, incluindo os projetos TensorFlow e PyTorch, para otimizar frameworks para hardware Intel®, com o upstreaming de nossas mais recentes otimizações e recursos para que estejam imediatamente disponíveis para desenvolvedores. Isso permite que você aproveite os benefícios de desempenho do Intel® AMX com a adição de algumas linhas de código, reduzindo o tempo geral de desenvolvimento.
    Também fornecemos acesso a ferramentas de desenvolvimento, bibliotecas e recursos Intel® gratuitos.

Casos de uso de aprendizado profundo do Intel® AMX

O Intel® AMX pode ser implantado em uma ampla gama de casos de uso de aprendizado profundo para fornecer um impulso significativo no desempenho que resulta em maior valor para o usuário final e para a empresa.

  • Sistemas de recomendação: use o Intel® AMX como uma solução mais econômica para modelos de recomendação de IA que aumentam a capacidade de resposta de recomendações de produtos, conteúdo e serviços para casos de uso, incluindo comércio eletrônico, redes sociais, entretenimento de streaming e serviços bancários personalizados. Por exemplo, provedores de conteúdo frequentemente usam o Intel® AMX para acelerar a entrega de recomendações e anúncios direcionados de filmes ou livros, ou para oferecer um sistema de recomendação baseado em aprendizado profundo que leva em consideração sinais de comportamento do usuário em tempo real e recursos de contexto, como hora e localização, quase em tempo real. Os processadores Intel® Xeon® da 5ª Geração estão fornecendo desempenho de inferência do sistema de recomendação (DLRM) em lote até 8,7x mais alto e desempenho/watt 6,2x mais alto em comparação com os processadores Intel® Xeon® da 3ª Geração com FP32.6
  • Processamento de linguagem natural (PLN): acelere casos de uso baseados em texto para apoiar e escalar aplicativos de PLN, como aqueles usados em saúde e ciências da vida para extrair percepções de notas clínicas ou processar grandes quantidades de dados médicos para ajudar na detecção precoce de problemas de saúde e melhorar a prestação de cuidados. Em serviços financeiros, o Intel® AMX pode ser usado para melhorar a capacidade de resposta de chatbots online para ajudar a conectar clientes com as informações de que precisam mais rapidamente, enquanto libera funcionários limitados para atender solicitações mais complexas.
    Semelhante aos benefícios de economia de custo para sistemas de recomendação, o Intel® AMX pode ser uma solução mais econômica para PLN. Por exemplo, quando usado para implantar o modelo de linguagem natural de IA BERT-Large, o Intel® AMX nos processadores Intel® Xeon® da 4ª Geração proporcionou uma economia de até 79% quando comparado com o AMD Genoa 9354.7
  • IA generativa: aproveite o Intel® AMX para acelerar o desempenho de cargas de trabalho de treinamento e inferência de aprendizado profundo para casos de uso de IA generativa, como geração de conteúdo, incluindo imagens, vídeos e áudio, tradução de idiomas, data augmentation e criação de resumos. Por exemplo, uma avaliação de desempenho dos processadores Intel® Xeon® Platinum 8480+ com Intel® AMX para tipos de dados BF16 em comparação com os processadores Intel® Xeon® Platinum 8380 para tipos de dados FP32 reduziu o tempo de geração de texto para imagem do Stable Diffusion para menos de cinco segundos e o ajuste fino dos modelos do Stable Diffusion para menos de cinco minutos.8
  • Visão computacional: reduza o tempo desde a captura de vídeo e imagem até percepções e ações para oferecer experiências excepcionais aos clientes e ajudar sua empresa a melhorar a eficiência e reduzir custos operacionais. Por exemplo, em lojas de varejo, o Intel® AMX pode ajudar a minimizar o tempo das transações com clientes usando um checkout sem fricção habilitado por visão computacional e suporte para monitoramento quase em tempo real de prateleiras para rastrear dados de inventário e notificar instantaneamente a equipe quando um item estiver fora de estoque. Na fabricação, a análise acelerada de vídeo a partir de câmeras de visão computacional em braços robóticos pode ajudar a possibilitar economia de tempo e custo com recursos automatizados de detecção de defeitos.

Para encontrar exemplos adicionais de como os clientes Intel® estão usando o Intel® AMX para impulsionar melhores resultados empresariais, acesse nossa biblioteca de clientes em destaque.

Comece a usar o Intel® AMX

Oferecemos uma ampla variedade de recursos de desenvolvimento para ajudar você a aproveitar o acelerador Intel® AMX integrado em seus processadores escaláveis Intel® Xeon®.

Para começar, veja as instruções passo a passo para aumentar o desempenho com o Intel® AMX nos seguintes guias:

Para informações técnicas mais detalhadas, tutoriais, exemplos de código e módulos de teste, acesse:

Você pode acessar todos os nossos guias de ajuste para processadores escaláveis Intel® Xeon® em nosso catálogo de ferramentas de software para desenvolvedor.

Para ajudar você a simplificar seus esforços de desenvolvimento de IA, oferecemos nossos kits de ferramentas, componentes e otimizações do Intel® oneAPI, incluindo:

Experimente hoje com o Intel® AMX

Além de consultar nossos materiais de referência, você pode experimentar com o hardware Intel®, o Intel® AMX e outros recursos de aceleração integrados usando a Intel® Developer Cloud.

Esta plataforma online gratuita para aprendizagem, prototipagem, testes e execução de cargas de trabalho também inclui suporte para vários kits de ferramentas, ferramentas e bibliotecas de desenvolvimento de software Intel®.

Expanda e aprimore os recursos de IA na sua CPU com o Intel® AMX

À medida que sua organização busca soluções para atender às crescentes demandas de computação para suportar cargas de trabalho de treinamento e inferência de aprendizado profundo, o Intel® AMX pode ajudar a aumentar o desempenho usando o hardware Intel® que você já pode ter, sem o custo e a complexidade que vêm com hardware especializado adicional e com tempo de desenvolvimento comparavelmente menor, usando otimizações Intel® em frameworks de código aberto populares e acesso a ferramentas e recursos de desenvolvimento Intel® gratuitos.