Domine o fluxo de trabalho de ciência de dados

Essas estações de trabalho especialmente projetadas para combinar um grande espaço de memória, vários slots de expansão para conectar múltiplos dispositivos e CPUs escolhidas cuidadosamente para atender às demandas específicas de projetos baseados em Python de cientistas e analistas de dados como você.

Perguntas frequentes

Existem dois fatores principais a serem considerados ao escolher uma estação de trabalho para tarefas de ciência de dados: quais ferramentas e técnicas você mais usa e qual o tamanho dos seus conjuntos de dados.

Para as estruturas relacionadas a ciência de dados, um maior número de núcleos nem sempre se traduz num desempenho melhor. O NumPy, SciPy, e scikit-learn não escalam bem com mais de 18 núcleos. Por outro lado, o HEAVY.AI (anteriormente OmniSci) consegue usar todos os núcleos que forem dados a ele.

Todas as estações de trabalho para ciência de dados baseadas em tecnologia Intel usam os processadores escaláveis Intel® Core™, Intel® Xeon® W e Intel® Xeon®, que se destacam em cargas de trabalho para ciência de dados em testes do mundo real. Você receberá o melhor desempenho de cada família de processador, ou seja, a capacidade de memória é a sua escolha mais importante.

As estruturas de ciência de dados utilizam duas a três vezes a quantidade de memória do conjunto a ser analisado. Para saber sua linha de base em termos de memória, examine seus conjuntos de dados típicos e multiplique por três. Se você pode trabalhar com 512 GB ou menos, terá um desempenho excelente em uma máquina desktop. Se seus conjuntos de dados tendem a ser maiores do que 500 GB, você precisará de uma torre com 1,5 TB de memória ou mais.

Os aceleradores de GPU se destacam no treinamento de modelos de aprendizado profundo e inferência de aprendizado profundo em larga escala. No entanto, para a maior parte do trabalho relacionado a ciência de dados — preparação de dados, análises e aprendizado de máquina clássico — essas GPUs ficam ociosas, porque a maioria das bibliotecas Python para ciência de dados são executadas nativamente na CPU. Você precisa de um adaptador gráfico para dar imagem aos seus displays, mas não de um equipamento de GPU.

A nuvem não proporcionará o melhor desempenho, a menos que você esteja utilizando uma máquina virtual dedicada ou um servidor bare metal. As instâncias de nuvem se apresentam como um único nó, mas no back-end, as coisas são altamente distribuídas. Sua carga de trabalho e seus dados são divididos em vários servidores em vários locais. Isso cria latências de processamento e de memória que degradam o tempo de execução. Além disso, trabalhar com conjuntos de dados grandes e gráficos através de uma área de trabalho remota não é uma experiência ideal.

Ao manter a carga de trabalho e os dados locais, em uma única máquina, você pode usufruir de um desempenho muito aprimorado e uma experiência de trabalho mais fluida e responsiva.

Você pode, mas vai desperdiçar imensas quantidades de tempo assistindo aos dados enquanto são transportados entre o armazenamento, memória e CPU. Se você está trabalhando em um ambiente profissional, atualizar seu sistema para um notebook ou desktop para ciência de dados Intel® intermediário pode economizar muito do seu tempo. Testamos e projetamos intencionalmente os notebooks para ciência de dados baseados em tecnologia Intel® Core™ para que os alunos, iniciantes e fabricantes de IA possam ter uma opção acessível para desenvolver e experimentar ferramentas de IA de código aberto.

Você pode executar ferramentas para ciência de dados baseadas em Python mais rápido em um PC padrão usando bibliotecas e distribuições otimizadas para a tecnologia Intel. Eles todos fazem parte do kit Intel AI gratuito.