Considere abordagens alternativas para o desenvolvimento e a implantação da IA de linguagem.
Empresas, ISVs e outras organizações de tecnologia estão buscando maneiras de tornar a IA inovadora e viável. O desenvolvimento e a implantação de um modelo de IA de linguagem tradicionalmente se baseiam em grandes modelos de linguagem (LLMs) com suporte de servidores e estações de trabalho com GPUs dedicadas ou outro hardware especializado. No entanto, o esforço e a infraestrutura necessários para viabilizar esses tipos de soluções muitas vezes são proibitivos para muitas organizações.
Como resultado, os inovadores com uma abordagem prática estão optando por soluções baseadas em SLM. SLMs são modelos leves e focados que podem permitir com mais eficiência aplicações específicas de domínio e baseadas em linguagem, como chatbots. Para alcançar ainda mais a eficiência de custos, esses inovadores que utilizam SLM estão explorando como podem executar cargas de trabalho de SLM em arquiteturas somente de CPU, seja implantado na nuvem, em um data center local ou na borda.
Para entender como habilitar a IA de linguagem específica de domínio com mais eficiência, vamos examinar o que torna a combinação de SLMs e CPUs prontas para IA, como os processadores Intel® Xeon®, tão poderosa.
Simplifique as soluções de IA de linguagem com SLMs
Para empresas que priorizam a eficiência, a privacidade e a eficiência de custos, os SLMs são um excelente caminho para a IA. Em contraste com os LLMs, que são amplos e de uso geral, os SLMs são modelos de IA compactos, projetados para realizar tarefas específicas com eficácia. Como resultado, eles exigem menos potência computacional e dados em cada estágio do pipeline de IA. Exemplos de SLMs populares incluem o Mistral 7B e a coleção Llama 3.2.
Eficiência e benefícios de custo
Normalmente, os SLMs são derivados de LLMs por meio de técnicas como destilação e poda. Como os SLMs envolvem menos dados, eles podem ser treinados e retreinados com frequência sem incorrer em custos significativos de eletricidade ou de recursos de nuvem. Essa flexibilidade pode ajudar a ajustar e refinar o desempenho do modelo sem consumir muito orçamento ou cronograma.
Benefícios para a segurança e privacidade
Além disso, os SLMs oferecem benefícios de privacidade e segurança. Por suas necessidades menores de dados de treinamento e uso menos difundido, os SLMs são menos propensos a ingerir e reter informações sensíveis. O conjunto de dados menor e a arquitetura mais simples facilitam explicar os resultados e a identificação de preconceitos ou alucinações. Como exigem menos recursos, os SLMs também apresentam uma área de ataque menor para ameaças à segurança cibernética.
Benefícios da IA específica de domínio
Como os SLMs são construídos com base em conjuntos de dados menores e mais focados, elas são adequadas para uso em aplicações específicas de domínio. O treinamento em um conjunto de dados construído para um setor, campo ou empresa específicos ajuda os SLMs a desenvolver uma compreensão profunda e específica que pode reduzir o risco de resultados errôneos. O foco mais restrito também facilita as otimizações de métricas, como taxa de conclusão de tarefas e precisão. Além disso, requisitos mais baixos de dados e treinamento para SLMs podem se traduzir em tempos de resposta mais rápidos e um ROI mais rápido.
Maximize a eficiência com SLMs em CPUs
SLMs e CPUs prontos para a IA podem ser usados juntos para fornecer uma solução leve e econômica para a implementação da IA em linguagem em cargas de trabalho reais sem sacrificar o desempenho. O uso de CPUs em vez de GPUs ou outro hardware especializado para pequenos modelos de linguagem pode minimizar os custos, a complexidade e o consumo de recursos.
Por exemplo, servidores baseados nos mais recentes processadores Intel® Xeon® da 4ª geração e mais novos permitem que os usuários executem SLMs em uma arquitetura baseada apenas em CPU de forma acessível, privada, com baixa latência. Devido à sua flexibilidade e desempenho, o uso desses processadores para pequenos modelos de linguagem é um caminho particularmente atraente para a habilitação de aplicações de SLM em uma implantação local, o que pode ser preferido quando se enfrenta necessidades de segurança de dados especialmente rigorosas.
Aceleradores integrados em processadores Intel® Xeon®
Os processadores Intel® Xeon® 4, 5 e 6 também oferecem o acelerador integrado Intel® Advanced Matrix Extensions (Intel® AMX), que se combina com o aumento da largura de banda de memória para aprimorar a eficiência computacional para SLMs. Um tamanho de modelo menor também significa que aplicativos completos podem ser executados em um único nó baseado em um processador Intel® Xeon®, reduzindo significativamente os custos e oferecendo uma excelente latência e taxa de transferência.
O Intel® Advanced Matrix Extensions aprimora o desempenho do treinamento e da inferência de aprendizado profundo (DL), tornando-o ideal para cargas de trabalho como o processamento de linguagem natural. É possível codificar a funcionalidade da IA para aproveitar o conjunto de instruções do Intel® Advanced Matrix Extensions ou codificar a funcionalidade sem IA para usar a arquitetura do conjunto de instruções do processador.
Também é importante observar que os mais recentes processadores Intel® Xeon® oferecem uma série de otimizações e mecanismos de aceleração integrados além do Intel® Advanced Matrix Extensions, suportando vários casos de uso, como segurança e rede.
- Leia mais sobre o Intel® Advanced Matrix Extensions (AMX).
- Saiba mais sobre Intel® Accelerator Engines integrados.
Llama 3.2 3B em processadores Intel® Xeon®
Os resultados de uma análise comparativa demonstram que a execução do Llama 3.2 3B com uma entrada de 1.024 tokens e uma saída de 128 tokens em processadores Intel® Xeon® da 5ª Geração e processadores Intel® Xeon® 6 P-core pode alcançar uma taxa de transferência notável, mantendo uma latência next-token de menos de 50 ms (P99).1
Microsoft Phi-3 em processadores Intel® Xeon®
A família Phi-3 de SLMs oferece opções capazes e econômicas para a construção de aplicativos de IA generativa (GenAI). Uma análise comparativa das variantes Phi-3-medium de 4K e 128K mostra que os processadores Intel® Xeon® são uma opção eficiente para a implantação de inferência do LLM.2
Avalie suas oportunidades de SLM e CPU
Os SLMs em execução em CPUs oferecem um caminho viável, econômico, preciso e seguro para tornar a IA de linguagem e modelos específicos de domínio mais práticos para a implementação da sua organização.
Além disso, o caminho para a execução de SLMs em uma arquitetura de CPU, incluindo os processadores Intel® Xeon®, pode ser mais direto do que você espera.
Aqui estão quatro etapas que você pode seguir hoje para começar a avaliar suas opções de SLM em CPU:
- Avalie seus investimentos atuais com sua equipe de infraestrutura. Muitas organizações possuem servidores baseados em processadores Intel Xeon e a atualização de sua infraestrutura existente com uma migração para os processadores Intel Xeon 6 com Intel AMX pode gerar enormes benefícios de TCO para SLMs.
- Consulte seu provedor de nuvem. As instâncias baseadas no processador Intel® Xeon® com o acelerador Intel® AMX estão disponíveis em qualquer um dos principais provedores de nuvem e estão prontas para você aproveitar.
- Discuta as opções com seus parceiros de tecnologia. Os parceiros da Intel® estão prontos para ajudar você a aproveitar ao máximo nossas tecnologias, incluindo os processadores Intel® Xeon®, para pequenos modelos de linguagem da borda para a nuvem.
- Descubra como é fácil portar aplicativos de IA existentes para arquiteturas de CPU. A Intel oferece uma gama de ferramentas de desenvolvimento, incluindo o kit de ferramentas OpenVINO™, que permite que você escreva um código uma vez e o implante em qualquer lugar.