Execute consultas de databricks em até 76% menos tempo e reduza os custos com instâncias do Amazon® R5d com processadores escaláveis Intel® Xeon® 2ª Geração

Databricks:

  • Execute consultas de suporte à decisão em até 76% menos tempo com instâncias r5d.2xlarge com processadores escaláveis Intel Xeon 2ª Geração com Photon habilitado.

  • Gaste até 51% menos para executar consultas de suporte à decisão com instâncias r5d.2xlarge com processadores escaláveis Intel Xeon 2ª Geração com Photon habilitado.

author-image

Por

Com o mecanismo de consulta vetorializado fotônica habilitado, essas instâncias superaram drasticamente as instâncias r5a.2xlarge com processadores AMD EPYC™ em cargas de trabalho de suporte à decisão e ofereceram melhor valor

Muitas organizações dependem da Plataforma Lakehouse da Databricks para armazenar e analisar dados, estruturados e não estruturados. Para executar suas consultas de suporte à decisão rapidamente, é importante selecionar instâncias de nuvem apoiadas por hardware potente. Mas determinar quais instâncias atendem a esse critério pode ser um desafio.

Realizamos testes para ajudar empresas que estão comprando instâncias de nuvem para suas cargas de trabalho de suporte à decisão. Especificamente, nós olhamos para a série de instâncias AWS: instâncias R5d habilitadas por processadores escaláveis Intel® Xeon® 2ª Geração e instâncias R5a com processadores AMD EPYC. Criamos clusters databricks Runtime 9.0 desses dois tipos de instância para executar uma carga de trabalho de suporte à decisão. No cluster R5d, usamos VMs que habilitam um mecanismo de consulta vetorializado chamado Photon projetado para melhorar o desempenho da consulta SQL. No momento deste teste, o mecanismo photon da Databricks não é suportado em instâncias R5a.

Cargas de trabalho de suporte de decisões concluídas de instâncias R5d em menos tempo

Testamos as duas instâncias de AWS com um benchmark de suporte a decisões que gera uma pontuação mais baixa e melhor que reflete o tempo necessário para executar um determinado conjunto de consultas. A seleção de uma instância que leva menos tempo pode ajudar sua empresa de duas maneiras: primeiro, obtendo informações valiosas mais cedo e em segundo lugar, reduzindo o tempo de atividade da instância e os custos associados, o que pode ajudar você a gastar menos. Como a Figura 1 mostra, instâncias r5d.2xlarge com processadores escaláveis Intel Xeonde 2ª Geração e Photon habilitadas para consultas concluídas em um conjunto de dados de 1 TB em 74% menos tempo do que as instâncias r5a.2xlarge com processadores AMD EPYC fizeram. Com um conjunto de dados de 10 TB, o tempo de conclusão da consulta do cluster r5d.2xlarge foi 76% menor do que o do cluster r5a.2xlarge.

Figura 1. Tempo relativo de processamento para concluir um conjunto de consultas de benchmark em um cluster de instância r5d.2xlarge habilitado para photon com processadores escaláveis Intel Xeonda 2ª Geração e um cluster r5a.2xlarge com processadores AMD EPYC em conjuntos de dados de 1 TB e 10 TB.

Como os tempos de consulta mais curtos podem ajudar sua linha de fundo

Como é o caso de qualquer recurso em que sua empresa está investindo, obter um bom valor para o seu dólar é uma prioridade. Calculamos quanto custaria para uma empresa realizar os cenários de teste que discutimos na página anterior. Usamos o preço por hora para cada instância, armazenamento e DBUs databricks no momento do teste, juntamente com os tempos na Figura 1 para determinar o preço por TB para todos os quatro cenários. Como a Figura 2 mostra, uma empresa gastaria muito menos se eles executaram cargas de trabalho de suporte a decisões em instâncias r5d.2xlarge com photon. Para o conjunto de dados de 1 TB, o cluster r5d.2xlarge habilitado por processadores escaláveis Intel® Xeon® da 2ª Geração pode fornecer um preço/desempenho 46% menor do que o cluster r5a.2xlarge com processadores AMD EPYC. Para o conjunto de dados de 10 TB, o cluster r5d.2xlarge habilitado para fótons reduziria os custos de preço/desempenho em 51%.

Figura 2. Preço/desempenho normalizados para executar uma carga de trabalho de suporte a decisões em um ambiente databricks em instâncias de amazon r5d.2xlarge habilitadas com photon em comparação com instâncias r5a.2xlarge em conjuntos de dados de 1 TB e 10 TB.

Conclusão

Medimos o tempo para concluir um conjunto de consultas databricks para dois tamanhos diferentes de conjuntos de dados em instâncias AWS r5d.2xlarge habilitados para photon com processadores escaláveis Intel Xeon da 2ª Geração e instâncias r5a.2xlarge com processadores AMD EPYC. As instâncias r5d.2xlarge completaram conjuntos de consultas em até 76% menos tempo. Quando combinamos essas vezes com o preço por hora para as duas instâncias, descobrimos que as instâncias r5d.2xlarge custam consideravelmente menos para executar a mesma quantidade de trabalho, uma economia de custo de até 51%. Se a sua empresa quiser obter percepções ativas mais cedo e reduzir os gastos em instâncias de AWS, escolha instâncias r5d.2xlarge habilitadas com photon com processadores escaláveis Intel Xeon 2ª Geração.

Saiba Mais

Para começar a executar seus clusters de Databricks em instâncias do Amazon R5d habilitados para photon com processadores escaláveis Intel Xeon 2ª Geração, visite https://aws.amazon.com/quickstart/architecture/databricks/.

Para saber mais sobre o mecanismo de consulta vetorizado fotônica da Databricks, acesse https://databricks.com/product/photon e https://docs.databricks.com/runtime/photon.html.

Para todos os resultados deste relatório, usamos uma carga de trabalho de suporte à decisão derivada do TPC-DS. Todos os testes foram realizados em dezembro de 2021 na região de AWS us-east-1. Todos os testes usaram clusters de 20 nós com Ubuntu 18.04.1, kernel versão 5.4.0-1059-AWS, Databricks 9.0, Apache Spark 3.1.2, Scala 2.12. Ambos os tipos de instância tinham 8 vCPUs e RAM de 64 GB. O r5d.2xlarge tinha uma SSD NVMe de 300 GB, BW de rede de 10 Gbps e BW de armazenamento de 4.750 Mbps. As instâncias r5a.2xlarge tinham um volume de EBS de 250 GB, BW de rede de 10 Gbps e BW de armazenamento de 2.880 Mbps.

O conteúdo desta página é uma combinação de tradução humana e por computador do conteúdo original em inglês. Este conteúdo é fornecido para sua conveniência e apenas para informação geral, e não deve ser considerado completo ou exato. Se houver alguma contradição entre a versão em inglês desta página e a tradução, a versão em inglês prevalecerá e será a determinante. Exibir a versão em inglês desta página.