Inferência BERT-Large no AWS M6i versus M5n

BERT-Large:

Obtenha desempenho até 64% melhor de BERT-Large em instâncias de 64 vCPU m6i.16xlarge com processadores escaláveis Intel Xeon da 3ª Geração em comparação com instâncias m5n.16xlarge.

Processe uma taxa de transferência até 40% maior de BERT-Large em instâncias de 32 vCPU m6i.8xlarge com processadores escaláveis Intel Xeon da 3ª Geração em comparação com instâncias m5n.8xlarge.

Em diferentes tamanhos de instância, as instâncias M6i realizaram mais operações de inferência por segundo do que as instâncias M5n com processadores escaláveis da 2ª Geração Intel Xeon escaláveis

As empresas usam cargas de trabalho de inferência de aprendizado de máquina de linguagem natural para uma variedade de aplicações empresariais, como chatbots que analisam textos digitados por clientes e outros usuários. Este tipo de trabalho coloca grandes demandas em recursos de computação, tornando muito importante selecionar instâncias de nuvem de alto desempenho.

BERT é um modelo de processamento de linguagem natural de uso geral (NLP) que optamos por medir o desempenho de dois tipos de instâncias de nuvem do Amazon Web Services (AWS) EC2. Testamos dois tamanhos de instâncias M6i com processadores escaláveis Intel Xeon 3ª Geração e instâncias M5n com processadores escaláveis Intel Xeon 2ª Geração. Descobrimos que ambas as instâncias de 32 vCPU e 64 vCPU M6i com processadores escaláveis da 3ª Geração Intel Xeon superaram suas contrapartes M5n. Com base nessas descobertas, as empresas podem oferecer uma experiência mais rápida para seus usuários, optando por instâncias M6i.

Instâncias M6i com 64 vCPUs

Para comparar o desempenho de inferência BERT-Large das duas séries de instâncias AWS, usamos a estrutura TensorFlow. Conforme a Figura 1 mostra, a instância de 64 vCPU m6i.16xlarge habilitada por processadores escaláveis Intel Xeon da 3ª Geração forneceu taxa de transferência 64% maior do que a instância m5n.16xlarge com processadores escaláveis Intel Xeon 2ª Geração.

Figura 1. Desempenho de inferência bert-large alcançado por uma instância m6i.16xlarge com processadores escaláveis Intel Xeon da 3ª Geração e por uma instância m5n.16xlarge com processadores escaláveis Intel Xeon 2ª Geração. Testes usados em precisão INT8, tamanho do lote de 1 e comprimento de sequência de 384. Mais alto é melhor.

Instâncias M6i com 32 vCPUs

Conforme a Figura 2 mostra, a instância de 32 vCPU m6i.8xlarge habilitada por processadores escaláveis Intel® Xeon® da 3ª Geração forneceu taxa de transferência 40% maior do que a instância m5n.8xlarge com processadores escaláveis Intel Xeon 2ª Geração.

Figura 2. Desempenho de inferência bert-large alcançado por uma instância m6i.8xlarge com processadores escaláveis Intel Xeon da 3ª Geração e por uma instância m5n.8xlarge com processadores escaláveis Intel Xeon 2ª Geração. Testes usados em precisão INT8, tamanho do lote de 1 e comprimento de sequência de 384. Mais alto é melhor.

Conclusão

Testamos o desempenho de inferência de processamento de linguagem natural BERT-Large de duas instâncias awS: instâncias M6i com processadores escaláveis Intel Xeon da 3ª Geração e instâncias M5n com processadores escaláveis Intel Xeon 2ª Geração. Em dois tamanhos diferentes, as instâncias M6i superaram as instâncias M5n em até 64%. Para oferecer uma experiência mais rápida para seus clientes e outros usuários, execute suas cargas de trabalho de inferência NLP em instâncias do Amazon M6i com processadores escaláveis Intel Xeon 3ª Geração.

Saiba Mais

Para começar a executar suas cargas de trabalho de inferência NLP em instâncias do Amazon M6i com processadores escaláveis da 3ª Geração Intel Xeon, visite https://aws.amazon.com/ec2/instance-types/m6i/.

Testes de VM único pela Intel em 30/11/2021. Todos os VMs configurados com Ubuntu 20.04 LTS, 5.11.0-1022-aws, armazenamento EBS, GCC=8.4.0, Python=3.6.9, tensorflow=2,5.0, Docker=20.10.7, containerd=1.5.5, modelo BERT, tamanho do lote 1, comprimento da sequência 384, precisão INT8. Detalhes da instância: m6i.8xlarge, 32vcpus, cpu Intel® Xeon® Platinum 8375C @ 2,90GHz, memória DDR4 total de 128 GB; cpu m5n.8xlarge, 32vcpus, Intel® Xeon® Platinum CPU de 8259CL @ 2,50GHz, memória DDR4 total de 128 GB; cpu m6i.16xlarge, 64vcpus, Intel® Xeon® Platinum 8375C @ 2,90GHz, memória DDR4 total de 256 GB; cpu m5n.16xlarge, 64vcpus, Intel® Xeon® Platinum CPU 8259CL @ 2,50GHz, memória DDR4 total de 256 GB.

Selecione o seu idioma

Usando a pesquisa Intel.com

Links rápidos

Pesquisas recentes

Busca avançada