Em um ambiente escuro, semelhante ao de um espaço, linhas finas começam no meio da imagem e movem-se para cima e para fora do quadro, formando uma rede de linhas

Implementar geração aumentada por recuperação (RAG) para acelerar o desenvolvimento de aplicativos de LLM

Saiba como personalizar grandes modelos de linguagem (LLMs) de forma mais econômica.

Principais lições

  • O RAG é uma abordagem ideal para sua inscrição de LLM, se você não tiver tempo ou orçamento para ajuste fino.

  • Escolha uma plataforma de computação que possa impulsionar o pipeline completo, incluindo cargas de trabalho de inferência de LLM exigentes.

  • Implemente uma estrutura de RAG integrada, como o LangChain ou o fastRAG do Intel Labs, para ajudar a simplificar o desenvolvimento.

  • Aproveite processadores construídos especificamente e otimizações principais para maximizar o desempenho do pipeline do RAG.

  • Teste o desempenho do aplicativo do RAG no portfólio de IA Intel® e provedores de nuvem com o Intel® Tiber™ Developer Cloud.

author-image

Por

Acelere seu sucesso de RAG e IA generativa

Aplicativos de grande modelo de linguagem (LLM), como chatbots, estão proporcionando benefícios poderosos em todos os setores. As organizações usam LLMs para reduzir custos operacionais, impulsionar a produtividade dos funcionários e oferecer experiências mais personalizadas aos clientes.

À medida que organizações como a sua correm para transformar essa tecnologia revolucionária em uma vantagem competitiva, uma parte significativa precisará primeiro personalizar LLMs prontos para os dados de sua organização para que os modelos possam oferecer resultados de IA específicos para empresas. No entanto, os investimentos de custo e tempo necessários para ajustar modelos podem criar barreiras consideráveis que impedem muitos inovadores em potencial.

Para superar essas barreiras, a geração aumentada por recuperação (RAG) oferece uma abordagem mais econômica para personalização de LLM. Ao permitir que você configure modelos em seus dados proprietários sem ajuste fino, o RAG pode ajudar você a lançar rapidamente aplicativos de LLM personalizados para sua empresa ou clientes. Em vez de exigir reciclagem ou ajuste fino, a abordagem de RAG permite conectar o LLM pronto para uso a uma base de conhecimento externo selecionada, construída com base em dados exclusivos e proprietários de sua organização. Essa base de conhecimento informa o resultado do modelo com contexto e informações específicos da organização.

Neste artigo, você aprenderá como configurar componentes principais de sua implementação de RAG, desde a escolha de seus fundamentos de hardware e software até a construção de sua base de conhecimento e otimização de seu aplicativo em produção. Também compartilharemos ferramentas e recursos que podem ajudar você a aproveitar ao máximo cada fase do pipeline.

Quando o RAG é a abordagem certa?

Antes de começar a avaliar os blocos de construção de pipeline, é importante considerar se o RAG ou o ajuste fino é o melhor para seu aplicativo de LLM.

Ambas as abordagens começam com um LLM fundamental, oferecendo um caminho mais curto para LLMs personalizados do que treinar um modelo do zero. Os modelos fundamentais foram pré-treinados e não exigem acesso a conjuntos de dados massivos, uma equipe de especialistas em dados ou poder de computação extra para treinamento.

No entanto, depois de escolher um modelo fundamental, você ainda precisará personalizá-lo para sua empresa, para que seu modelo possa oferecer resultados que atendam seus desafios e necessidades. O RAG pode ser uma ótima opção para sua inscrição de LLM, se você não tiver tempo ou dinheiro para investir em ajuste fino. O RAG também reduz o risco de alucinações, pode fornecer fontes para seus resultados para melhorar a explicabilidade e oferece benefícios de segurança, já que informações sensíveis podem ser mantidas de forma segura em bancos de dados privados.

Saiba mais sobre os benefícios que o RAG pode trazer para sua iniciativa de IA generativa.

Escolha hardware que priorize o desempenho e a segurança

O pipeline de RAG inclui muitos componentes computacionalmente intensivos, e os usuários finais esperam respostas de baixa latência. Isso torna a escolha de sua plataforma de computação uma das decisões mais importantes que você tomará ao procurar suportar o pipeline de ponta a ponta.

Os processadores Intel® Xeon® permitem que você impulsione e gerencie o pipeline de RAG completo em uma única plataforma, simplificando o desenvolvimento, implantação e manutenção. Os processadores Intel® Xeon® incluem mecanismos de IA integrados para acelerar as principais operações em todo o pipeline — incluindo ingestão de dados, recuperação e inferência de IA — na CPU sem a necessidade de hardware adicional.

Para aplicativos de RAG que exigem a mais alta taxa de transferência ou a mais baixa latência, você pode integrar os aceleradores de IA Intel® Gaudi® para atender às demandas de desempenho avançadas de forma econômica. Os aceleradores Intel® Gaudi® são construídos especificamente para acelerar a inferência e podem até substituir CPUs e outros aceleradores para inferência de RAG.

Como as organizações costumam usar o RAG ao trabalhar com dados confidenciais, proteger seu pipeline durante o desenvolvimento e na produção é fundamental. Os processadores Intel® Xeon® usam tecnologias de segurança integradas — Intel® Software Guard Extensions (Intel® SGX) e Intel® Trust Domain Extensions (Intel® TDX) — para permitir o processamento de IA seguro em todo o pipeline por meio de computação confidencial e criptografia de dados.

Uma vez implantado, seu aplicativo pode experimentar o aumento da latência devido ao aumento da demanda do usuário final. O hardware Intel® é altamente escalável, para que você possa adicionar recursos de infraestrutura para atender ao uso crescente. Você também pode integrar otimizações para suportar as principais operações em todo o pipeline, como vetorização de dados, pesquisa de vetores e inferência de LLM.

Você pode testar o desempenho de RAG em processadores Intel® Xeon® e Intel® Gaudi® por meio da Nuvem para desenvolvedores Intel® Tiber™.

Use uma estrutura de RAG para integrar facilmente cadeias de ferramentas de IA

Para conectar muitos componentes, os pipelines de RAG combinam várias cadeias de ferramentas de IA para ingestão de dados, bancos de dados vetoriais, LLMs e muito mais.

À medida que você começa a desenvolver seu aplicativo de RAG, as estruturas de RAG integradas, como LangChain, fastRAG do Intel Labs e LlamaIndex, podem simplificar o desenvolvimento. As estruturas de RAG costumam fornecer APIs para integrar cadeias de ferramentas de IA em todo o pipeline e oferecer soluções baseadas em modelos para casos de uso do mundo real.

A Intel oferece otimizações para ajudar a maximizar o desempenho geral do pipeline em hardware Intel®. Por exemplo, fastRAG integra o Intel® Extension for PyTorch e o Optimum Habana para otimizar aplicativos de RAG em processadores Intel® Xeon® e aceleradores de IA Intel® Gaudi®.

A Intel também contribuiu com otimizações para o LangChain para aprimorar o desempenho em hardware Intel®. Descubra como configurar facilmente esse fluxo de trabalho usando o LangChain e os aceleradores de IA Intel® Gaudi® 2.

Construa sua base de conhecimento

O RAG permite que as organizações alimentem os LLMs com informações proprietárias importantes sobre seus negócios e clientes. Esses dados são armazenados em um banco de dados de vetores que você pode construir por si mesmo.

Identifique fontes de informações

Imagine usar o RAG para implantar um assistente pessoal de IA que possa ajudar a responder perguntas dos funcionários sobre sua organização. Você pode alimentar um LLM com dados importantes, como informações do produto, políticas da empresa, dados do cliente e protocolo específico do departamento. Os funcionários podem fazer perguntas ao chatbot com tecnologia RAG e obter respostas específicas da organização, ajudando os funcionários a concluir tarefas mais rapidamente e capacitando-os para se concentrarem em pensamento estratégico.

É claro, as bases de conhecimento irão variar em diferentes setores e aplicativos. Uma empresa farmacêutica pode querer usar um arquivo de resultados de testes e histórico do paciente. Um fabricante pode alimentar especificações de equipamentos e dados de desempenho históricos para um braço robótico baseado em RAG para que possa detectar possíveis problemas de equipamentos precocemente. Uma instituição financeira pode querer conectar um LLM a estratégias financeiras proprietárias e tendências do mercado em tempo real para permitir que um chatbot forneça aconselhamento financeiro personalizado.

Por fim, para construir sua base de conhecimento, você precisa coletar os dados importantes que deseja que seu LLM acesse. Esses dados podem vir de uma variedade de fontes baseadas em texto, incluindo PDFs, transcrições de vídeo, e-mails, slides de apresentação e até dados tabulares de fontes como páginas da Wikipedia e planilhas. O RAG também suporta soluções de IA multimodal, que combinam vários modelos de IA para processar dados de qualquer modalidade, incluindo som, imagens e vídeo.

Por exemplo, um varejista pode usar uma solução de RAG multimodal para pesquisar imagens de vigilância para eventos importantes rapidamente. Para fazer isso, o varejista criaria um banco de dados de filmagem de vídeo e usaria prompts de texto — como “homem colocando algo em seu bolso” — para identificar clipes relevantes sem ter que pesquisar centenas de horas de vídeo manualmente.

Prepare seus dados

Para preparar seus dados para um processamento eficiente, você precisará primeiro limpar os dados, removendo informações duplicadas e ruído, e dividi-los em pedaços gerenciáveis. Você pode ler mais dicas para limpar seus dados aqui.

Em seguida, você precisará usar uma estrutura de IA chamada modelo de incorporação para converter seus dados em vetores, ou representações matemáticas do texto que ajudem o modelo a entender um contexto maior. Os modelos de incorporação podem ser baixados de um terceiro — como os apresentados no quadro de classificação de modelos de incorporação de código aberto do Hugging Face — e podem ser perfeitamente integrados à sua estrutura de RAG por meio de APIs do Hugging Face. Após a vetorização, você pode armazenar seus dados em um banco de dados de vetores para que esteja pronto para uma recuperação eficiente pelo modelo.

Dependendo do volume e da complexidade de seus dados, o processamento de dados e a criação de incorporações pode ser tão computacionalmente intensivo quanto a inferência de LLM. Os processadores Intel® Xeon® podem lidar com eficiência com toda a sua ingestão de dados, incorporação e vetorização em um nó baseado em CPU sem a necessidade de qualquer hardware adicional.

Além disso, os processadores Intel® Xeon® podem emparelhar com modelos de incorporação quantizados para otimizar o processo de vetorização, melhorando a taxa de transferência de codificação em até 4 vezes em comparação com modelos não quantificados1.

Otimize consultas e recuperação de contexto

Quando um usuário envia uma consulta para um modelo baseado em RAG, um mecanismo de recuperação pesquisa sua base de conhecimento para dados externos relevantes para enriquecer o resultado final do LLM. Esse processo depende de operações de pesquisa de vetores para encontrar e classificar as informações mais relevantes.

As operações de pesquisa de vetores são altamente otimizadas em processadores Intel® Xeon®. O Intel® Advanced Vector Extensions 512 (Intel® AVX-512) integrado aos processadores Intel® Xeon® aprimora as operações principais na pesquisa de vetores e reduz o número de instruções, oferecendo melhorias significativas na taxa de transferência e desempenho.

Você também pode aproveitar a solução Scalable Vector Search (SVS) do Intel Labs para aprimorar o desempenho do banco de dados de vetores. O SVS otimiza recursos de pesquisa de vetores em CPUs Intel® Xeon® para melhorar os tempos de recuperação e o desempenho geral do pipeline.

Otimize a geração de respostas de LLM

Uma vez equipado com dados adicionais de sua loja de vetores, o LLM pode gerar uma resposta contextualmente precisa. Isso envolve inferência de LLM, que é normalmente a fase mais computacionalmente exigente do pipeline de RAG.

Os processadores Intel® Xeon® usam o Intel® Advanced Matrix Extensions (Intel® AMX), um acelerador de IA integrado, para permitir operações de matriz mais eficientes e gerenciamento de memória aprimorado, ajudando a maximizar o desempenho de inferência. Para LLMs de médio e grande porte, use os aceleradores de IA Intel® Gaudi® para acelerar a inferência com desempenho e eficiência de IA construídos especificamente para esse fim.

A Intel também oferece várias bibliotecas de otimização para ajudar você a maximizar a inferência de LLM em seus recursos de hardware. Nossas bibliotecas Intel® oneAPI oferecem otimizações de baixo nível para estruturas de IA populares, como PyTorch e TensorFlow, permitindo que você use ferramentas familiares de código aberto que são otimizadas em hardware Intel®. Você também pode adicionar extensões, como o Intel® Extension for PyTorch, para permitir técnicas de inferência quantizadas avançadas para impulsionar o desempenho geral.

Uma vez que seu aplicativo estiver em produção, talvez você queira atualizar para o LLM mais recente para acompanhar a demanda do usuário final. Como o RAG não envolve ajuste fino e sua base de conhecimento existe fora do modelo, o RAG permite que você substitua rapidamente seu LLM por um novo modelo para suportar uma inferência mais rápida.

Acelere sua jornada de IA com a Intel

O RAG pode ajudar você a implantar aplicativos de LLM personalizados de forma rápida e econômica, sem exigir ajuste fino. Com os blocos de construção certos, você pode configurar um pipeline de RAG otimizado em apenas algumas etapas.

À medida que você busca sua iniciativa de IA, aproveite o portfólio de IA Intel® para aprimorar cada fase do seu pipeline de RAG. Nossas soluções de hardware e software são construídas para acelerar seu sucesso.