Use Aprendizado de Máquina Automatizado para Acelerar o Tempo de Retorno para IA

Com a plataforma AutoML da DataRobot e as mais recentes tecnologias Intel®, as empresas podem treinar rapidamente grandes conjuntos de dados e criar modelos de aprendizado de máquina prontos para produção.

Benefícios da Solução:

  • Preenche a lacuna das competências em ciência de dados. Capacita uma ampla gama de usuários empresariais a desenvolver modelos de aprendizado de máquina.

  • Oferece preço/desempenho para treinamento de aprendizado de máquina. Treina, com eficiência de custos, vários modelos com grandes conjuntos de dados simultaneamente.

  • Constrói o sucesso em inteligência artificial. Produz rapidamente modelos de aprendizado de máquina robustos e transparentes, suavizando o para adoção de IA

author-image

Por

Resumo Executivo

O crescente desejo de obter valor comercial a partir da inteligência artificial (IA) criou uma lacuna entre a demanda por conhecimento em ciência de dados e a oferta de cientistas de dados. A plataforma de aprendizado de máquina automatizado (AutoML) da DataRobot, executada na arquitetura Intel® trata esse desafio automatizando muitas tarefas necessárias para inteligência artificial e aplicativos de aprendizado de máquina.

Os usuários da DataRobot podem criar modelos preditivos precisos e transparentes em poucos minutos. Os especialistas em ciência de dados podem trabalhar com mais eficiência. Os usuários corporativos podem criar modelos de aprendizado de máquina robustos aplicando sua compreensão de dados corporativos e processos de negócios. As organizações podem aplicar inteligência artificial a desafios empresariais importantes e posicionar-se para o sucesso na economia de algoritmo emergente.

Otimizada para as mais recentes tecnologias da Intel, a solução DataRobot AutoML oferece desempenho inigualável, capacidade de memória e escalabilidade para criar, treinar e implantar modelos de aprendizado de máquina em uma infraestrutura familiar e econômica. Usando processadores escaláveis Intel® Xeon® da 2ª Geração e o Intel® Optane™ Persistent Memory, as organizações podem treinar modelos em conjuntos de dados de até 100 GB. Em testes de parâmetro de referência, um sistema com Intel® Optane™ Persistent Memory treinou praticamente à mesma velocidade que um sistema com apenas DRAM, dependendo do tamanho do conjunto de dados e do método de treinamento. O sistema com Intel® Optane™ Persistent Memory foi projetado para treinar um conjunto de dados até 1,33x maior a um mesmo custo de memória em comparação com um sistema com apenas DRAM.1

Figura 1. Utilizando as tecnologias Intel®, a DataRobot constrói o sucesso em IA automatizando o desenvolvimento de ferramentas de aprendizado de máquina

Desafio do Negócio: Preencher a Lacuna do Talento em Ciência de Dados

As organizações de todos os tamanhos estão ansiosas para aplicar IA aos seus desafios mais complexos e às oportunidades mais empolgantes. Muitos reconhecem o aprendizado de máquina e outras formas de IA como maneiras poderosas de se obter vantagem competitiva pela aquisição de novas percepções a partir de seus crescentes armazenamentos de dados. O mercado de IA em todo o mundo, avaliado em US$ 20,67 bilhões em 2018, está projetado para crescer para US$ 202,57 bilhões até 2026, uma taxa de crescimento anual cumulativa em 2019 de 33,1%.2

A crescente demanda por solução de IA levou a uma escassez significativa de talentos em IA. De acordo com o relatório de janeiro de 2020 da TalentSeer, a demanda por pessoal com competências em inteligência artificial cresceu 74% em cada um dos quatro anos anteriores.3 Em uma pesquisa da Gartner com 3.000 CIOs de empresas de 89 nações, 54% identificaram a escassez de competências como seu maior desafio em IA4.

Em conjunto com a escassez de especialistas em ciência de dados, o desenvolvimento de aprendizado de máquina é dificultado por tarefas que muitas vezes são complexas, tediosas e demoradas. Como resultado, os cientistas de dados gastam um tempo valioso realizando essas tarefas em vez de utilizar ao máximo o seu conhecimento. Além disso, muitas pessoas com conhecimento de dados de negócios não têm as competências específicas para criar modelos de aprendizado de máquina. Essas questões retardam o desenvolvimento de inteligência artificial e impedem que as empresas implantem IA tão rápida e extensivamente quanto as necessidades de negócios exigem.

Visão Geral da Solução : Aprendizado de Máquina Automatizado com DataRobot e Intel

A DataRobot utiliza aprendizado de máquina automatizado (AutoML) para ajudar a preencher a lacuna de competências em inteligência artificial. A solução da DataRobot automatiza e substitui grande parte do trabalho manual tedioso exigido por processos de ciência de dados tradicionais. Ela capacita usuários com conhecimento sobre dados em qualquer nível de competência a desenvolver, testar, modelar e implantar rapidamente algoritmos de aprendizado de máquina, usando as melhores práticas e salvaguardas para ajudar a evitar erros humanos.

Com a DataRobot, os usuários de toda uma empresa podem desenvolver seu conhecimento de dados corporativos para modelos de aprendizado de máquina avançados sem a necessidade de criar códigos ou entender as complexidades de algoritmos específicos. Os cientistas de dados podem aplicar de forma produtiva sua experiência singular à seleção e aperfeiçoamento de modelos. As organizações podem criar rapidamente modelos de aprendizado de máquina precisos e capturar valor a partir de dados corporativos. A Figura 2 demonstra a interface gráfica do usuário (GUI) da solução DataRobot.

Figura 2. A GUI intuitiva da DataRobot ajuda os usuários com competência em dados corporativos a desenvolver modelos de aprendizado de máquina sem dominar os detalhes do desenvolvimento de algoritmos, treinamento de recursos e outros aspectos.

A DataRobot utiliza aprendizado de máquina e tecnologias da Intel para analisar grandes volumes de dados e capturar relacionamentos, tendências e padrões que podem ser muito sutis para detecção por parte de inteligência e análise de negócios anteriores. Os usuários inserem os dados relevantes e selecionam a variável que desejam prever. A DataRobot escolhe os algoritmos mais apropriados e otimiza o reprocessamento de dados, a engenharia de recursos e a calibração de parâmetros para cada algoritmo. Ele constrói e treina centenas de modelos preditivos, classifica e ranqueia os modelos, além de recomendar o melhor modelo para implantação consoante a previsão e objetivo de dados. Em vez de gastar semanas ou meses desenvolvendo e testando alguns modelos com código "feito à mão", os usuários podem criar e explorar centenas de modelos e implantar o modelo que apresente o melhor desempenho — tudo isso em poucas horas.

A DataRobot foi projetada para transparência, para que os usuários possam entender e explicar como os modelos foram construídos e por que os modelos fizeram as previsões que fizeram. As visualizações incorporadas mostram quais tipos de dados possuem maior impacto no modelo e fornecem insights sobre como as variáveis individuais afetam o negócio. A solução utiliza o desempenho, a escalabilidade e a capacidade de memória das tecnologias da Intel para criar, treinar e avaliar modelos de aprendizado de máquina, bem como lidar com conjuntos de dados e casos de uso em crescimento.

Gerando Insights e Valor com a AutoML

Diversas indústrias estão usando a solução DataRobot AutoML para criar modelos preditivos que ampliam a experiência humana, aprimoram a tomada de decisão baseada em dados, melhoram a eficiência e muito mais. Eis alguns exemplos:

  • As companhias de seguros estão direcionando áreas que vão de subscrição ao marketing. Elas estão usando insights habilitados para aprendizado de máquina para otimizar os algoritmos de preços, aprimorar a avaliação de risco e reduzir reclamações fraudulentas.
  • As empresas de tecnologia financeira estão prevendo transações fraudulentas de cartão de crédito e criando novos produtos de investimento. Elas estão fortalecendo a segurança da Blockchain pela detecção de comportamento anômalo na cadeia, aumentando as taxas de resposta a iniciativas de marketing por meio de direcionamento aprimorado.
  • Os varejistas estão obtendo novos insights sobre padrões de gastos dos clientes e comportamento de compras em todos os canais. Eles aplicam tais insights para alinhar melhor a combinação do mix de produtos, promoções, mensagens e escolha de mídia a fim de selecionar o produto certo no lugar certo e no momento certo.
  • Os fabricantes estão caminhando nas próximas etapas de automação de fábrica e otimização da cadeia de suprimentos, impulsionando mais ganhos de produtividade, economia de custos e melhorias de qualidade. Usando a manutenção preditiva e fluxos de dados em tempo real de ativos conectados, eles estão otimizando custos e tempo de atividade ao realizar a manutenção de ativos antes de terem a chance de quebrar. Eles estão incorporando modelos de aprendizado de máquina no design de produtos inteligentes de última geração.
  • As agências do setor público estão usando modelos de aprendizado de máquina com feeds de dados em tempo real para prever possíveis atividades terroristas, atividades fraudulentas e ameaças à segurança cibernética. Soluções de aprendizado de máquina escaláveis são um facilitador fundamental para cidades inteligentes que ajudam a melhorar a segurança pública, a eficiência de tráfego e muito mais.
  • As organizações de saúde estão ampliando o julgamento de equipes de cuidados clínicos com modelos de aprendizado de máquina que sinalizam pacientes em alto risco de desenvolver infecções que ameaçam a vida ou que exigem reinternações onerosas. As empresas farmacêuticas estão otimizando a logística de envios de medicamentos, melhorando os custos de entrega e os serviços de atendimento ao cliente.

Valor da Solução: Caminho Simplificado para uma Empresa Baseada em Inteligência Artificial

A solução AutoML da DataRobot e Intel altera a velocidade e a economia de análises preditivas e fornece um caminho rápido para a IA de sucesso. Essa plataforma de nível industrial trata a escassez de competências ao tornar os cientistas de dados mais produtivos. Ela capacita profissionais de dados que têm competências em dados e conhecimentos de negócios para desenvolver e implantar rapidamente modelos preditivos precisos. Também trata a necessidade de muitos usuários da DataRobot que precisam treinar modelos em conjuntos de dados muito grandes. As organizações podem escalar seus esforços de aprendizado de máquina para realizar mais projetos, repetir e explorar novos casos de uso, bem como aplicar IA de forma mais ampla em seus negócios. Elas podem democratizar a inteligência artificial e criar empresas baseadas em IA.

A DataRobot é uma solução abrangente que agrega valor por todas as fases críticas de desenvolvimento e implantação de modelos de aprendizado de máquina.

  • Ingestão de dados. A DataRobot transforma dados estruturados e não estruturados no formato específico que cada algoritmo precisa para o desempenho ideal. Ela segue as melhores práticas de particionamento de dados.
  • Recursos de engenharia. A DataRobot desenvolve novos recursos a partir de recursos numéricos, categóricos e de texto existentes. Ela sabe quais algoritmos se beneficiam de engenharia de recursos extras e quais não se beneficiam, além de gerar apenas recursos que fazem sentido considerando as características dos dados.
  • Explore e selecione algoritmos. A DataRobot fornece acesso a centenas de algoritmos, com o pré-processamento adequado para que os usuários testem com seus dados. Isso ajuda os usuários a selecionar os algoritmos que fazem sentido para seus dados e seus desafios em matéria de IA.
  • Treine e ajuste modelos de aprendizado de máquina. A DataRobot treina modelos nos dados do usuário, usando refinamento inteligente para otimizar os hiperparâmetros mais importantes para cada algoritmo.
  • Encontre combinações de algoritmos ideais. Modelos de junção ou combinação normalmente superam algoritmos individuais. A DataRobot encontra os algoritmos ideais para junção e ajusta a ponderação dos algoritmos em cada modelo de combinação.
  • Compare modelos entre si. A DataRobot constrói e treina dezenas de modelos, compara os resultados e classifica os modelos por precisão, velocidade e combinação mais eficiente. Os usuários exploram os modelos com a GUI intuitiva da DataRobot e escolhem com quais seguirão em frente.
  • Construa confiança. Para ajudar a garantir a transparência, a DataRobot explica seu modelo de decisões, mostrando quais características têm o maior impacto na precisão do modelo e nos padrões adequados para cada recurso. Ela fornece explicações para ilustrar a lógica por trás de uma previsão específica.
  • Implemente modelos prontos para produção. A DataRobot produz modelos prontos para produção que os usuários podem integrar com aplicativos corporativos com apenas algumas linhas de código. Os modelos podem ser implementados para previsões em tempo real, implantações em lotes, pontuação no Apache Hadoop ou outros métodos. Os usuários podem desenvolver seus próprios modelos usando R, Python, Apache Spark, MLlib, H2O, ente outras ferramentas, e chamar a biblioteca DataRobot para ativá-los.
  • Monitore e gerencie. Após a implementação, a DataRobot facilita a comparação de previsões com resultados reais e a formação de um modelo novo sobre os dados mais recentes. A DataRobot destaca de forma proativa se o desempenho de um modelo está se deteriorando ao longo do tempo.

Arquitetura de Solução para Aprendizado de Máquina Automatizado

As poderosas tecnologias da ajudam a DataRobot a otimizar o desempenho para automatizar, treinar e avaliar simultaneamente vários modelos de aprendizado de máquina e inteligência artificial, além de fornecer aplicativos de IA em escala (consulte a Figura 3).

Figura 3: A DataRobot aproveita as mais recentes tecnologias da Intel® para oferecer excelente desempenho para o desenvolvimento de aprendizado de máquina automatizado.

Para cada novo modelo, a DataRobot pesquisa em sua crescente biblioteca de milhares de modelos de aprendizado de máquina de código aberto.

Ela avalia possíveis combinações de algoritmos, etapas de pré-processamento e outros atributos para selecionar ou construir os elementos mais adequados para um determinado conjunto de dados e objetivo de previsão. Ela treina os principais modelos nos dados do usuário e apresenta aqueles com melhor desempenho para os usuários avaliarem. Modelos implementados podem analisar bilhões de combinações de dados para fornecer novos insights e descobrir sinais que podem ter sido anteriormente ocultados por "ruído" nos dados. A solução pode ser implementada em uma nuvem privada no local ou em uma nuvem da Amazon Wev Services (AWS) gerenciada pela DataRobot.

A DataRobot se integra facilmente ao ecossistema de tecnologias que já existem na empresa. Estão nele incluídas as tecnologias de segurança e privacidade de dados, ferramentas de integração e visualização de dados, além de plataformas de infraestrutura como Apache Hadoop e bases de dados SQL. Os dados estruturados e não estruturados podem ser ingeridos a partir de lagos de dados, tabelas e outras fontes corporativas, e os usuários podem interagir com o sistema por meio de interfaces gráficas ou programáticas.

A plataforma DataRobot inclui dois produtos independentes, porém interrelacionados:

  • A regressão e a classificação incorporam uma variedade de técnicas de regressão — desde a regressão linear simples, modelos de regressão estatística clássicos até técnicas mais complexas, como o aumento do gradiente e as redes neurais. A plataforma resolve problemas de classificação binária simples, bem como problemas complexos e de múltiplas variáveis com até 100 categorias.
  • As séries temporais automatizam o desenvolvimento de modelos sofisticados que preveem os valores futuros de uma série de dados com base em seu histórico e tendências. A plataforma integra a engenharia de recursos das séries temporais para descobrir sinais preditivos.

Ela utiliza tanto modelos de séries temporais básicas como avançadas para otimizar a precisão da previsão e pode visualizar insights ao longo do tempo e implementar modelos para a produção.

Tecnologias da Intel para Treinamento em AutoML de Alto Desempenho e Economia

A última geração de tecnologias de data center da Intel é construída do zero para cargas de trabalho de inteligência artificial. Elas fornecem desempenho excepcional, escalabilidade e capacidade de memória para cargas de trabalho da DataRobot, intensivas tanto em termos de CPU como de memória. As organizações podem avançar em seu uso de inteligência artificial mantendo um ambiente consistente e econômico para desenvolvimento de IA e implementação de modelos.

  • Os processadores escaláveis Intel® Xeon® fornecem plataformas poderosas para cargas de trabalho centradas em dados. Os processadores escaláveis Intel® Xeon® da 2ª Geração incorporam um acelerador de hardware integrado e o Intel® Deep Learning Boost com a instrução de rede neural vetorial (VNNI) para aumentar o desempenho de inferência. Eles também adicionam recursos de segurança aprimorados para ajudar a construir uma base de computação confiável. Os novos processadores escaláveis da Intel® Xeon® da 3ª Geração adicionam ainda mais recursos de desempenho, incluindo o primeiro suporte a x86 do setor para Brain Floating Point 16-bit (bfloat16) para desempenho de treinamento aumentado.
  • O Intel® Optane™ Persistent Memory é uma nova classe de memória não volátil que preenche a lacuna entre DRAM rápida, porém cara, e SSDs NAND de desempenho inferior com custo mais baixo. Essa memória inovadora aborda os níveis de desempenho da DRAM, no entanto, a um custo menor por gigabyte. Ela reside no barramento de memória e permite mais de 3 TB de memória por soquete da CPU. O modo em memória do Intel® Optane Persistent Memory pode ser usado de forma transparente como uma extensão volátil da DRAM.
  • As unidades de estado sólido Intel® (Intel® SSDs) combinam alto rendimento, baixa latência e alta resistência para otimizar o desempenho de aplicativos vinculados a dados. O Intel® SSD D3-S4510 é um SSD baseado em SATA otimizado para cargas de trabalho com uso intensivo de leitura. Projetadas para armazenamento de dados aumentado por unidade de rack, essas SSDs de grande capacidade estão disponíveis em tamanhos de 240 GB a 3,8 TB. O Intel® SSD DC P4610 foi projetado com tecnologia Intel® 3D NAND de 64 camadas para ajudar os gerentes de data center a otimizar a eficiência de armazenamento e gerenciar em escala de forma proficiente.
  • Os adaptadores de rede Ethernet Intel® XXV710 oferecem desempenho escalável e flexível com a capacidade de negociar automaticamente para conexões de 1/10/25 GbE. Esses adaptadores fornecem descargas inteligentes e aceleradores para desbloquear o desempenho de rede em servidores baseados em processadores escaláveis Intel® Xeon®

Juntas, essas tecnologias permitem que as empresas que implementam a DataRobot treinem conjuntos de dados volumosos e vários modelos simultaneamente com alto desempenho.

Parâmetros de Referência para Treinamento de AutoML

O treinamento de aprendizado de máquina é uma tarefa com uso intensivo de dados que pode exigir quantidades significativas memória. As demandas podem ser especialmente acentuadas para uma solução de AutoML como a DataRobot, que treina vários modelos simultaneamente usando os dados do cliente antes de classificá-los. Embora os modelos possam ser treinados com quantidades variáveis de dados, um conjunto de dados ajuda a aumentar a precisão do modelo.

Para explorar os requisitos de memórias da DataRobot, a equipe do Grupo de Soluções de IA da Intel® usou a DataRobot no Modo de piloto para selecionar de forma aleatória e treinar modelos a partir do catálogo de modelos da DataRobot. Descobrimos qie treinamento de modelos múltiplos, escolhidos aleatoriamente exigiu aplicação de memória de 6 a 25 vezes o tamanho do conjunto de dados. O intervalo dependia dos tipos de modelo e da porcentagem de dados utilizada no treinamento. Devido à alta proporção de aplicação de memória ao conjunto de dados, o treinamento de conjuntos de dados grandes pode precisar de um pool de dados robusto para evitar a drenagem do desempenho das cargas de trabalho ligadas à capacidade de memória. No entanto, a configuração de um pool de dados com DRAM exclusivamente pode ser proibitivamente caro.

A equipe de parâmetros de referência queria verificar o quão bem o Intel® Optane™ Persistent Memory poderia tratar essa situação. A inovação de memória da Intel poderia oferecer aos usuários da DataRobot uma solução econômica para o treinamento de AutoML de alto desempenho em grandes conjuntos de dados?

A equipe começou o treinamento com DataRobot no modo piloto com um conjunto de dados de teste de 50 GB. Em seguida, selecionaram vários modelos do placar de forma aleatória e retreinou em dois sistemas que diferiam apenas no tipo memória em seus nós de trabalho. Um utilizou DRAM exclusivamente, e o outro utilizou Intel® Optane™ Persistent Memory. A Figura 4 e a Tabela 1 resumem os sistemas de parâmetros de referência.

Configuramos ambos os sistemas com a mesma capacidade de memória e comparamos o desempenho (tempo de treinamento) das duas configurações. Esperávamos que o Intel® Optane™ Persistent Memory proporcione desempenho um pouco menor do que sistemas com DRAM exclusivamente. No entanto, quando analisamos o tempo de treinamento para os modelos selecionados, descobrimos que o desempenho no sistema com Intel® Optane™ Persistent Memory foi semelhante ao do sistema com DRAM exclusivamente, dependendo do modelo que estava sendo treinado.

Então, usando um modelo de preços da Intel, reconfiguramos os dois sistemas para o mesmo custo de memória em vez de utilizar a mesma capacidade. Nossa análise projetou que o Intel® Optane™ Persistent Memory proporcionaria uma capacidade de proporcionaria uma capacidade 1,33x maior de conjuntos de dados para treinamento do que a configuração de DRAM exclusivamente, novamente dependendo do modelo a ser treinado.

A Figura 41 mostra esses resultados para treinamento no classificador de árvores impulsionadas por gradiente para o Intel® Optane™ Persistent Memory em relação ao sistema com DRAM exclusivamente. A metade esquerda do gráfico ilustra o desempenho e o desempenho por dólar para a mesma capacidade de memória. O lado direito mostra a capacidade de conjuntos de dados de treinamento projetada e a capacidade de conjuntos de dados de treinamento por dólar para o custo de memória equivalente.

Figura 4: O Intel® Optane™ Persistent Memory proporcionou desempenho 1,23x melhor por dólar na mesma capacidade (lado esquerdo). Projetado para fornecer 1,33x mais capacidade de dados de treinamento e capacidade de treinamento 1,26x melhor por dólar do que uma configuração com DRAM exclusivamente.

Em resumo, nossos testes demonstraram o seguinte:

  • As organizações podem treinar praticamente na mesma velocidade em um sistema com Intel® Optane™ Persistent Memory e em um sistema com DRAM exclusivamente, alcançando uma melhoria de até 1,23x em desempenho por dólar.
  • É projetado que as organizações sejam capazes de treinar um conjunto de dados até 1,33x maior ao mesmo custo em sistemas com Intel® Optane™ Persistent Memory em comparação com sistemas DRAM exclusivamente. Isso é projetado para produzir uma capacidade indexada por dólar de até 1,26x.

Configuração Típica para a Implantação da DataRobot

A Tabela 1 resume uma configuração de sistema típica para executar a DataRobot nas instalações com a implementação de Hadoop para conjuntos de dados de treinamento de até 100 GB. Dependendo do tamanho da sua empresa e do número e tamanho dos conjuntos de dados, você pode precisar de vários nós de trabalho. Entre em contato com ser representante da DataRobot para saber mais sobre o dimensionamento ideal para os seus requisitos de treinamento.

Conclusão: IA em Escala

A inteligência artificial tornou-se um elemento fundamental das operações comerciais e uma fonte essencial para a diferenciação competitiva. Com a plataforma inteligência artificial e AutoML da DataRobot e as tecnologias Intel® líderes da indústria, as empresas podem tratar a escassez de cientistas de dados e remover um importante bloqueio para o sucesso com IA. Elas podem criar modelos de aprendizado de máquina prontos para produção rapidamente, aumentando a produtividade dos cientistas de dados, escalando a IA nos esforços de desenvolvimento e aplicando aprendizado de máquina em seus maiores desafios e oportunidades de negócios.

Ao utilizar as tecnologias Intel® otimizadas para IA, as organizações podem aproveitar o poder total do AutoML. Elas podem implementar plataformas de treinamento poderosas com 3 TB de Intel® Optane™ Persistent Memory por soquete da CPU. Elas também podem treinar conjuntos de dados grandes a um custo menor do que as configurações de memória com DRAM exclusivamente. Independentemente de se escolher a infraestrutura local ou baseada em nuvem, elas podem ser executadas em arquitetura versátil e padrão da indústria com desempenho, escalabilidade e confiabilidade excepcionais. Com a solução AutoML da DataRobot e as tecnologias da Intel, as organizações podem se concentrar em inovação de IA e criar uma empresa baseada inteligência artificial.

Encontre a solução certa para sua organização. Entre em contato com seu representante da Intel ou visite intel.com/ai.