Durante o ano passado, a Intel, a Habana Labs e a Hugging Face continuaram a melhorar a eficiência e a reduzir as barreiras para a adoção de inteligência artificial (IA) por meio de projetos de código aberto, experiências integradas de desenvolvedores e pesquisas científicas. Este trabalho resultou em avanços e eficiências importantes para a construção e treinamento de modelos de transformadores de alta qualidade.
Os modelos de transformadores oferecem desempenho avançado em uma ampla gama de tarefas de aprendizado profundo e de máquina, como processamento de linguagem natural (PLN), visão computacional (VC), fala e outros. Treinar esses modelos de aprendizado profundo em escala requer uma grande quantidade de poder de computação e pode tornar o processo demorado, complexo e caro.
O foco do trabalho contínuo da Intel com o Hugging Face por meio do Intel Disruptor Program é dimensionar a adoção de soluções de treinamento e inferência otimizadas nos mais recentes processadores Intel® Xeon® Scalable e Habana Gaudi® e Gaudi®2. A colaboração traz a inovação de aprendizado profundo mais avançada do Toolkit de IA da Intel para o ecossistema de código aberto da Hugging Face e informa os drivers de inovação na futura arquitetura Intel®. Os resultados desse trabalho proporcionaram avanços no ajuste fino distribuído em plataformas Intel Xeon, otimizações integradas, treinamento acelerado com a Habana Gaudi e aprendizado de poucos tiros.
Ajuste fino distribuído na plataforma Intel Xeon
Quando o treinamento em uma CPU de nó único é muito lento, os cientistas de dados confiam no treinamento distribuído, em que os servidores em cluster mantêm uma cópia do modelo, treinam-no em um subconjunto do conjunto de dados de treinamento e trocam resultados entre nós por meio da Biblioteca de Comunicações Coletivas da Intel® oneAPI para convergir para um modelo final mais rapidamente. Esse recurso agora é suportado nativamente por transformadores e facilita o ajuste fino distribuído para os cientistas de dados.
Um exemplo é acelerar o treinamento do PyTorch para modelos de transformadores em um cluster distribuído de servidores de processadores Intel Xeon Scalable. Para aproveitar as Intel® Advanced Matrix Extensions (Intel® AMX), AVX-512 e Intel Vector Neural Network Instructions (VNNI) no PyTorch, recursos de hardware suportados nos mais recentes processadores Intel Xeon Scalable, a Intel projetou a extensão Intel para o PyTorch. Esta biblioteca de software fornece aceleração pronta para uso para treinamento e inferência.
Além disso, os transformadores da Hugging Face fornecem uma API para o Trainer, facilitando o início do treinamento sem escrever manualmente um loop de treinamento. O Trainer fornece API para pesquisa de hiperparâmetros e atualmente suporta vários back-ends de pesquisa, incluindo o SigOpt da Intel, um serviço de otimização de hiperparâmetros hospedado. Com isso, os cientistas de dados podem treinar e obter o melhor modelo de forma mais eficiente.
Mais informações podem ser encontradas no blog e nos documentos do Hugging Face, "Acelerando o ajuste fino distribuído do PyTorch com as tecnologias Intel", "Treinamento eficiente em várias CPUs" e "Pesquisa de hiperparâmetros usando a API do Trainer".
Experiência ideal para desenvolvedores
Optimum é uma biblioteca de código aberto criada pela Hugging Face para simplificar a aceleração do transformador em uma gama crescente de dispositivos de treinamento e inferência. Com técnicas de otimização integradas e scripts prontos, os iniciantes podem usar o Optimum pronto para uso e os especialistas podem continuar ajustando para obter o máximo desempenho.
Optimum Intel é a interface entre a biblioteca de transformadores e as diferentes ferramentas e bibliotecas fornecidas pela Intel para acelerar pipelines de ponta a ponta nas arquiteturas Intel. Construído sobre o Intel® Neural Compressor, ele oferece uma experiência unificada em várias estruturas de aprendizado profundo para tecnologias populares de compactação de rede, como quantização, poda e destilação de conhecimento. Além disso, os desenvolvedores podem executar mais facilmente a quantização pós-treinamento em um modelo de transformador usando a biblioteca Optimum Intel para comparar métricas de modelo em conjuntos de dados de avaliação.
O Optimum Intel também fornece uma interface simples para otimizar modelos de transformadores, convertê-los para o formato de representação intermediária OpenVINO e para executar inferência usando o OpenVINO.
Mais contexto pode ser encontrado na página Hugging Face Optimum Intel do GitHub e na página do Optimy da Hugging Face.
Treinamento Acelerado com Habana Gaudi
A Habana Labs e a Hugging Face estão colaborando para tornar mais fácil e rápido o treinamento de modelos de transformadores de grande escala e alta qualidade. A integração do pacote de software SynapseAI® da Habana com a biblioteca de código aberto da Hugging Face Optimum-Habana permite que cientistas de dados e engenheiros de aprendizado de máquina acelerem o treinamento de aprendizado profundo de transformadores com processadores Habana – Gaudi e Gaudi2 – com algumas linhas de código.
A biblioteca Optimum-Habana oferece suporte para uma variedade de visão computacional, linguagem natural e modelos multimodais. As arquiteturas de modelo suportadas e testadas incluem BERT, AlBERT, DistilBERT, RoBERTa, Vision Transformer, swin, T5, GPT2, wav2vec2 e Stable-Diffusion. Existem mais de 40.000 modelos baseados nessas arquiteturas que estão atualmente disponíveis no hub da Hugging Face que os desenvolvedores podem habilitar facilmente em Gaudí e Gaudi2 com Optimum-Habana. 1
Um dos principais benefícios do treinamento na solução Habana Gaudi , que alimenta as instâncias EC2 DL1 da Amazon, é a eficiência de custos – oferecendo até 40% melhor preço-desempenho do que as soluções de treinamento comparáveis, permitindo que os clientes treinem mais enquanto gastam menos. 2 Gaudi2, construído sobre a mesma arquitetura de alta eficiência que o Gaudí de primeira geração, também promete oferecer um ótimo desempenho de preço.
O Habana DeepSpeed também está integrado na biblioteca Optimum-Habana e facilita a configuração e o treinamento de modelos de linguagem grandes em escala em dispositivos Gaudi usando otimizações DeepSpeed. Você pode saber mais com o guia de uso do Optimum-Habana DeepSpeed.
A versão mais recente do Optimum-Habana inclui suporte para o pipeline de Difusão Estável da biblioteca de difusores da Hugging Face, permitindo que a comunidade de desenvolvedores da Hugging Face tenha geração de teste para imagem econômica no Habana Gaudi.
Mais contexto pode ser encontrado no blog da Hugging Face "Habana Labs and Hugging Face Partner to Accelerate Transformer Model Training" e nos blogs da Habana Labs "Memory-Efficient Training on Habana(R) Gaudi(R) with DeepSpeed" e "Generation with PyTorch V-diffusion and Habana Gaudi" e no vídeo "Julien Simon Video: Accelerate Transformer Training with Optimum Habana".
Aprendizagem de poucos tiros na produção
A Intel Labs, a Hugging Face e a UKP Lab introduziram recentemente o SetFit, uma estrutura eficiente para o ajuste fino de poucos Transformadores de Sentença. O aprendizado de poucos tiros com modelos de linguagem pré-treinados surgiu como uma solução promissora para um verdadeiro desafio do cientista de dados: lidar com dados que têm poucos ou nenhum rótulo.
As técnicas atuais para ajuste fino de poucas fotos exigem prompts ou verbalizadores artesanais para converter exemplos em um formato adequado para o modelo de linguagem subjacente. SetFit dispensa prompts gerando incorporações avançadas diretamente de um pequeno número de exemplos de texto rotulados.
Os pesquisadores projetaram o SetFit para ser usado com qualquer transformador de sentença no Hugging Face Hub, permitindo que o texto seja classificado em vários idiomas, ajustando um ponto de verificação multilíngue.
O SetFit não requer modelos em grande escala como T5 ou GPT-3 para alcançar alta precisão. É significativamente mais eficiente em termos de amostras e robusto ao ruído do que o ajuste fino padrão. Por exemplo, com apenas oito exemplos rotulados por classe em um conjunto de dados de sentimento de exemplo, o SetFit era competitivo com o ajuste fino do RoBERTa Large no conjunto completo de treinamento de 3.000 exemplos. A Hugging Face descobriu que o SetFit também alcança resultados comparáveis ao T-Few 3B, apesar de ser livre de avisos e 27 vezes menor, tornando-o rápido para treinar e a um custo muito menor. 3
Mais contexto pode ser encontrado no blog da Hugging Face, "SetFit: Efficient Few-Shot Learning Without Prompts". Registre-se aqui para ouvir diretamente da Hugging Face e da Intel sobre a produção de poucas fotos e a inferência do SetFit na CPU em 14 de dezembro.
Projetos de código aberto, experiências integradas de desenvolvedores e pesquisas científicas são apenas algumas das maneiras pelas quais a Intel se envolve com o ecossistema e contribui para reduzir o custo da IA. Ferramentas e software aceleram a jornada do desenvolvedor para criar aplicativos e liberar o desempenho do processador. A Intel está em uma missão para facilitar a criação e a implantação da IA em qualquer lugar, permitindo que cientistas de dados e profissionais de aprendizado de máquina apliquem as mais recentes técnicas de otimização.
As letras miúdas:
1 Com base na consulta de pesquisa Hugging Face: https://huggingface.co/models?other=or:bert,stable-diffusion-diffusers,albert,wav2vec2,vit,swin,t5,distilbert,roberta,gpt2. Esta consulta filtra todos os modelos da Hugging Face que foram testados, validados e suportados no optimum-habana.
2 Com base no cálculo da AWS de preço e desempenho em relação a instâncias da AWS comparáveis baseadas em GPU. Consulte o anúncio de imprensa da Amazon para obter mais informações: https://press.aboutamazon.com/2021/10/aws-announces-general-availability-of-amazon-ec2-dl1-instances
3 Veja o artigo completo em https://arxiv.org/abs/2209.11055 e a postagem no blog em https://huggingface.co/blog/setfit para obter detalhes sobre as reivindicações de desempenho.