Assumindo os Desafios de Computação e Sustentabilidade da IA generativa

A democratização da IA pela Intel e o suporte para um ecossistema aberto atenderão às necessidades de computação para IA generativa.

Notícias

  • 28 de março de 2023

  • Entre em contato com o PR da Intel

  • Siga a redação da Intel nas redes sociais:

    Logotipo do Twitter
    Ícone do YouTube

author-image

Por

Principais coisas a saber:

  • Quais são as notícias: Hoje, a principal biblioteca de código aberto para aprendizagem de máquina – Hugging Face – resultados de desempenho compartilhados que demonstram que os aceleradores de hardware de IA da Intel executam inferência mais rápido do que qualquer GPU atualmente disponível no mercado, com o Habana® Gaudi®2 executando inferência 20% mais rápido em um modelo de parâmetro de 176 bilhões do que o A100 da Nvidia. Além disso, ele também demonstrou eficiência de energia ao executar uma carga de trabalho de visão computacional popular em um servidor Gaudi2, mostrando uma vantagem de 1,8x na taxa de transferência por watt em comparação com um servidor A100 comparável.1
  • Por que isso importa: As ferramentas de IA geradoras atuais, como o ChatGPT, criaram emoção em todo o setor em relação a novas possibilidades, mas o computação necessário para seus modelos colocou um foco no desempenho, no custo e na eficiência energética como principais preocupações para as empresas atuais.
  • O quadro geral: À medida que os modelos de IA generativos se tornam maiores, a eficiência de energia torna-se um fator crítico para impulsionar a produtividade com uma ampla variedade de funções complexas de carga de trabalho de IA, desde o pré-processamento de dados até o treinamento e a inferência. Os desenvolvedores precisam de uma abordagem de desenvolvimento de uma vez por todas com soluções flexíveis, abertas, eficientes em energia e mais sustentáveis que permitem que todas as formas de IA, incluindo a IA generativa, atinjam todo o seu potencial.
  • O que vem a seguir: A IA chegou a um longo caminho, mas ainda há muito a ser descoberto. O compromisso da Intel com a verdadeira democratização da IA e da sustentabilidade permitirá um acesso mais amplo aos benefícios da tecnologia, incluindo IA generativa, por meio de um ecossistema aberto.
  • Ponto-chave: Um ecossistema aberto permite que desenvolvedores construam e implantem IA em todos os lugares com a otimização da Intel de estruturas, bibliotecas e ferramentas populares de código aberto. Os aceleradores de hardware de IA da Intel e a inclusão de aceleradores integrados aos processadores escaláveis Intel® Xeon® de quarta geração fornecem desempenho e ganhos por watt para atender às necessidades de desempenho, preço e sustentabilidade da IA generativa.

A inteligência artificial generativa (IA) com sua capacidade de imitar conteúdo gerado por humanos apresenta uma oportunidade empolgante de transformar muitos aspectos de como trabalhamos e vivemos. No entanto, essa tecnologia em rápida evolução expõe as complexidades do computação necessárias para aproveitar com sucesso a IA no data center.
A Intel está fortemente investida em um futuro onde todos têm acesso a essa tecnologia e podem implantá-la em escala com facilidade. Os líderes da empresa estão colaborando com parceiros de todo o setor para oferecer suporte a um ecossistema aberto de IA que é construído com confiança, transparência e escolha.

Adotando IA Generativa Aberta com Desempenho Superior

A IA generativa está por aí há algum tempo com modelos de linguagem como GPT-3 e DALL-E, mas a emoção sobre o ChatGPT – um chatbot de IA generativo que pode ter conversas semelhantes a humanos – ilumina os gargalos das arquiteturas tradicionais de data center. Ela também acelera a necessidade de soluções de hardware e software que permitem que a inteligência artificial atinja todo o seu potencial. A IA generativa baseada em uma abordagem aberta e computação heterogênea a torna mais acessível e econômica para implantar as melhores soluções possíveis. Um ecossistema aberto desbloqueia o poder da IA geradora, permitindo que desenvolvedores construam e implantem IA em todos os lugares, priorizando potência, preço e desempenho.

Webinar: Intel para hospedar data center e webinar para investidores de IA

A Intel está tomando medidas para garantir que seja a escolha óbvia para habilitar a IA generativa com a otimização da Intel de estruturas, bibliotecas e ferramentas populares de código aberto para extrair o melhor desempenho de hardware e, ao mesmo tempo, remover a complexidade. Hoje, a Hugging Face, a principal biblioteca de código aberto e ciência aberta para aprendizado de máquina, publicou resultados que mostram  que a inferência é executada mais rapidamente nos aceleradores de hardware de IA da Intel do que em qualquer GPU atualmente disponível no mercado. A inferência no modelo BLOOMZ de 176 bilhões de parâmetros – um modelo de linguagem grande multilíngue (LLM) baseado em transformador de ciência aberta – é 20% mais rápida no Habana Gaudi2 da Intel do que no A100-80G da Nvidia. O BLOOM  foi projetado para lidar com 46 idiomas e 13 linguagens de programação e foi criado com total transparência. Todos os recursos por trás do treinamento do modelo estão disponíveis e documentados por pesquisadores e engenheiros em todo o mundo.

Para o parâmetro BLOOMZ de 7 bilhões menor, Gaudi2 é 3 vezes mais rápido que a A100-80G, enquanto a Habana® Gaudi® da primeira geração oferece uma clara vantagem de preço-desempenho em relação ao A100-80G. A biblioteca Hugging Face Optimum Habana facilita a implantação desses grandes LLMs com alterações mínimas de código nos aceleradores Gaudi.

Os pesquisadores da Intel Labs também usaram Gaudi2 para avaliar a BLOOMZ em uma configuração de tiro zero com o LMentry, um parâmetro de comparação recentemente proposto para modelos de linguagem. A precisão das escalas BLOOMZ com tamanho do modelo semelhante ao GPT-3, e o maior modelo 176B BLOOMZ supera sua contraparte GPT-3 de tamanho semelhante, conforme demonstrado pelo gráfico abaixo.

Avaliação automática da saída de idioma gerada pelos modelos BLOOMZ (parâmetros de até 176B) em prompts LMentry de 100K, usando aceleradores Habana Gaudi. 2

Além disso, o Hugging Face compartilhou hoje que a difusão estável da IA de estabilidade, outro modelo de IA geradora para geração de texto para imagem de última geração e uma alternativa de acesso aberto ao popular gerador de imagens DALL-E, agora executa uma média de 3,8 vezes mais rápido em processadores escaláveis Intel Xeon da 4ª Geração com Intel® Advanced Matrix Extensions integrados (Intel® AMX). Esta aceleração foi alcançada sem qualquer alteração de código. Além disso, ao usar a Intel Extension para PyTorch com Bfloat16, formato personalizado para aprendizagem de máquina, a precisão mista automática pode obter mais 2 vezes mais rápido e reduzir a latência para apenas 5 segundos – quase 6,5 vezes mais rápido do que a linha de base inicial de 32 segundos. Você pode testar seus próprios prompts em uma demonstração experimental de difusão estável que é executado em uma CPU Intel (processadores Xeon da 4ª Geração) no site Hugging Face.

"Na estabilidade, queremos permitir que todos construam a tecnologia de IA para si mesmos", diz Emad Mostaque, fundador e CEO, IA de estabilidade. "A Intel habilita modelos de difusão estável para executar de forma eficiente em suas ofertas heterogêneas, de CPUs da 4ª Geração Sapphire Rapids aceleradores como Gaudi e, portanto, é um grande parceiro para democratizar a IA. Estamos ansiosos para colaborar com eles em nossa próxima geração de idiomas, modelos de vídeo e códigos e além."

OpenVINO acelera ainda mais a inferência de difusão estável. Quando combinada com uma CPU Xeon da 4ª Geração, ela oferece quase 2,7x de velocidade em comparação com uma CPU escalável Intel® Xeon® 3ª Geração. A Intel Ideal, uma ferramenta suportada pela OpenVINO para acelerar pipelines de ponta a ponta em arquiteturas Intel, reduz a latência média em 3,5x adicionais, ou quase 10x no total.

Assumindo o Desafio de computação de IA generativa com a Intel e o Hugging Face

Assumindo o Desafio de computação de IA generativa com a Intel e o Hugging Face
Kavitha Prasad, vice-presidente e gerente geral do Datacenter AI, Cloud Execution and Strategy Group, e Lama Nachman, colega da Intel e diretor do Intelligent Systems Research Lab, juntam-se a Jeff Boudier, diretor de produtos da Hugging Face e analista do setor, Daniel Newman para discutir o impacto da IA generativa nas necessidades de computação do mundo, por que um ecossistema aberto importa e como deveríamos estar pensando sobre o papel da ética na mais recente onda da IA Desenvolvimentos. (Crédito: Intel Corporation)

Capítulos:

  1. "O que é ChatGPT" — 1:14
  2. "Abordando o Desafio de computação para IA generativa" – 3:58
  3. "A importância de um ecossistema aberto" – 6:42
  4. "Os modelos grandes estão impulsionando a demanda de computação aumentada" — 8:51
  5. "Implicações éticas da IA" – 15:38
  6. "Democratizando a IA com o rosto abraçado" — 20:18
  7. "Transparência de IA com um ecossistema aberto" – 27:36
  8. "Desenvolva uma vez, implante em todos os lugares" – 30:40

Abordando preço, desempenho eeficiência

Além disso, soluções mais sustentáveis precisam estar prontamente disponíveis para atender à necessidade crítica para a redução do uso de energia elétrica, enquanto ainda atendam às crescentes necessidades de desempenho. Um ecossistema aberto pode remover obstáculos que limitam o progresso, permitindo que os desenvolvedores inovem com as melhores ferramentas de hardware e software para cada trabalho.

Construído com a mesma arquitetura de alta eficiência que a Gaudi da primeira geração, que oferece um desempenho de preço até 40% melhor do que instâncias comparáveis baseadas na NVIDIA na nuvem AWS, Gaudi2 traz um novo nível de desempenho e eficiência para cargas de trabalho de grande escala. Ele também demonstrou eficiência energética ao executar cargas de trabalho de IA. Na avaliação de consumo de energia do Supermicro entre o servidor Supermicro Gaudi2 e o servidor Supermicro Nvidia A100, Gaudi2 mostra uma vantagem de 1,8x na taxa de transferência por watt sobre o servidor A100 ao executar uma carga de trabalho de visão computacional popular. 1

As cargas de trabalho de IA de grande escala também precisam de uma abordagem de implantação em todos os lugares com soluções flexíveis e abertas que permitem maior eficiência energética. Os processadores Xeon da 4ª Geração são os processadores de data center mais sustentáveis da Intel e permitem maior eficiência energética e economia de energia. Com aceleradores integrados, como Intel AMX, aumentos de inferência e desempenho de treinamento de 10x podem ser alcançados3 em um amplo conjunto de cargas de trabalho de IA e casos de uso, além de permitir até 14x aumentos de desempenho por watt em relação à geração anterior da Intel. 4

Apoiando um futuro ético de IA

A IA generativa é uma ferramenta poderosa que suporta e amplifica a capacidade humana, mas é essencial que o desenvolvimento e a implantação desses sistemas decorrem de uma abordagem centrada no homem. A governança de IA responsável é necessária para garantir que esses sistemas atinjam todo o seu potencial sem compromisso ético. A melhor maneira de proteger a ética da IA é através de um ecossistema aberto que promove a transparência entre treinamentos e conjuntos de dados. Ter uma cadeia de fornecimento de IA transparente garante que a IA está sendo desenvolvida de forma responsável e reduz a dívida ética na cadeia. Com essa transparência, os desenvolvedores são capacitados a avaliar a adequação de conjuntos de dados e modelos, replicar resultados e descobrir quaisquer preocupações éticas para seu contexto de uso.

A IA generativa é uma peça de um mosaico de IA maior. A abordagem dedicada da Intel para a democratização da IA significa que ela está combinando seus pontos fortes exclusivos em hardware, suporte para um ecossistema aberto e os investimentos corretos para o futuro para atender às necessidades de computação para todos os aspectos da IA, incluindo IA generativa.

A abordagem da Intel para a computação e ferramentas de democratização permite o acesso à construção de grandes modelos de linguagem, reduzindo custos e melhorando a equidade. Por exemplo, a Intel está se concentrando em personalizar o LLM para uso com pacientes de ALS para permitir que eles se comuniquem de forma mais eficaz. Permitir que a comunidade de desenvolvedores ajuste esses modelos para seu uso permite que esses modelos estejam mais acessíveis para aqueles que precisam.

A IA chegou a um longo caminho, mas ainda há muito a ser descoberto. A Intel continua a fomentar um ecossistema aberto para criar confiança, oferecer escolha e garantir a interoperabilidade em todo o setor. E está comprometida em usar uma abordagem multidisciplinar, fornecendo soluções de eficiência energética e focando na amplificação do potencial humano com IA por meio da colaboração humano-IA. Uma abordagem aberta é o melhor caminho a seguir.

1 Relatório de validação de Supermicro L12 de Gaudi2 HL-225H SYS-820GH-THR2, 20 de outubro de 2022

2 Medido em 24 de março de 2023, usando o Habana Gaudi2 Deep Learning Server hospedado na Intel Developer Cloud com 8 placas de mezanino Gaudi2 HL-225H e processadores Intel Xeon da 3ª Geração executando com o software SynapseAI® versão 1.8.0, com batch_size=1.

3Consulte [A16] e [A17] na intel.com/performanceindex da 4ª Geração Intel Xeon processadores escaláveis.

4Consulte intel.com/processorclaims: processadores escaláveis Intel Xeon 4ª Geração. Reivindicar E1.

Os resultados podem variar.