Com o mecanismo de consulta vetorializado fotônica habilitado, essas instâncias superaram drasticamente as instâncias r5a.2xlarge com processadores AMD EPYC™ em cargas de trabalho de suporte à decisão e ofereceram melhor valor
Muitas organizações dependem da Plataforma Lakehouse da Databricks para armazenar e analisar dados, estruturados e não estruturados. Para executar suas consultas de suporte à decisão rapidamente, é importante selecionar instâncias de nuvem apoiadas por hardware potente. Mas determinar quais instâncias atendem a esse critério pode ser um desafio.
Realizamos testes para ajudar empresas que estão comprando instâncias de nuvem para suas cargas de trabalho de suporte à decisão. Especificamente, nós olhamos para a série de instâncias AWS: instâncias R5d habilitadas por processadores escaláveis Intel® Xeon® 2ª Geração e instâncias R5a com processadores AMD EPYC. Criamos clusters databricks Runtime 9.0 desses dois tipos de instância para executar uma carga de trabalho de suporte à decisão. No cluster R5d, usamos VMs que habilitam um mecanismo de consulta vetorializado chamado Photon projetado para melhorar o desempenho da consulta SQL. No momento deste teste, o mecanismo photon da Databricks não é suportado em instâncias R5a.
Cargas de trabalho de suporte de decisões concluídas de instâncias R5d em menos tempo
Testamos as duas instâncias de AWS com um benchmark de suporte a decisões que gera uma pontuação mais baixa e melhor que reflete o tempo necessário para executar um determinado conjunto de consultas. A seleção de uma instância que leva menos tempo pode ajudar sua empresa de duas maneiras: primeiro, obtendo informações valiosas mais cedo e em segundo lugar, reduzindo o tempo de atividade da instância e os custos associados, o que pode ajudar você a gastar menos. Como a Figura 1 mostra, instâncias r5d.2xlarge com processadores escaláveis Intel Xeonde 2ª Geração e Photon habilitadas para consultas concluídas em um conjunto de dados de 1 TB em 74% menos tempo do que as instâncias r5a.2xlarge com processadores AMD EPYC fizeram. Com um conjunto de dados de 10 TB, o tempo de conclusão da consulta do cluster r5d.2xlarge foi 76% menor do que o do cluster r5a.2xlarge.
Como os tempos de consulta mais curtos podem ajudar sua linha de fundo
Como é o caso de qualquer recurso em que sua empresa está investindo, obter um bom valor para o seu dólar é uma prioridade. Calculamos quanto custaria para uma empresa realizar os cenários de teste que discutimos na página anterior. Usamos o preço por hora para cada instância, armazenamento e DBUs databricks no momento do teste, juntamente com os tempos na Figura 1 para determinar o preço por TB para todos os quatro cenários. Como a Figura 2 mostra, uma empresa gastaria muito menos se eles executaram cargas de trabalho de suporte a decisões em instâncias r5d.2xlarge com photon. Para o conjunto de dados de 1 TB, o cluster r5d.2xlarge habilitado por processadores escaláveis Intel® Xeon® da 2ª Geração pode fornecer um preço/desempenho 46% menor do que o cluster r5a.2xlarge com processadores AMD EPYC. Para o conjunto de dados de 10 TB, o cluster r5d.2xlarge habilitado para fótons reduziria os custos de preço/desempenho em 51%.
Conclusão
Medimos o tempo para concluir um conjunto de consultas databricks para dois tamanhos diferentes de conjuntos de dados em instâncias AWS r5d.2xlarge habilitados para photon com processadores escaláveis Intel Xeon da 2ª Geração e instâncias r5a.2xlarge com processadores AMD EPYC. As instâncias r5d.2xlarge completaram conjuntos de consultas em até 76% menos tempo. Quando combinamos essas vezes com o preço por hora para as duas instâncias, descobrimos que as instâncias r5d.2xlarge custam consideravelmente menos para executar a mesma quantidade de trabalho, uma economia de custo de até 51%. Se a sua empresa quiser obter percepções ativas mais cedo e reduzir os gastos em instâncias de AWS, escolha instâncias r5d.2xlarge habilitadas com photon com processadores escaláveis Intel Xeon 2ª Geração.
Saiba Mais
Para começar a executar seus clusters de Databricks em instâncias do Amazon R5d habilitados para photon com processadores escaláveis Intel Xeon 2ª Geração, visite https://aws.amazon.com/quickstart/architecture/databricks/.
Para saber mais sobre o mecanismo de consulta vetorizado fotônica da Databricks, acesse https://databricks.com/product/photon e https://docs.databricks.com/runtime/photon.html.
Para todos os resultados deste relatório, usamos uma carga de trabalho de suporte à decisão derivada do TPC-DS. Todos os testes foram realizados em dezembro de 2021 na região de AWS us-east-1. Todos os testes usaram clusters de 20 nós com Ubuntu 18.04.1, kernel versão 5.4.0-1059-AWS, Databricks 9.0, Apache Spark 3.1.2, Scala 2.12. Ambos os tipos de instância tinham 8 vCPUs e RAM de 64 GB. O r5d.2xlarge tinha uma SSD NVMe de 300 GB, BW de rede de 10 Gbps e BW de armazenamento de 4.750 Mbps. As instâncias r5a.2xlarge tinham um volume de EBS de 250 GB, BW de rede de 10 Gbps e BW de armazenamento de 2.880 Mbps.