O que é Big Data?

Big Data são dados não estruturados de alto volume e alta velocidade — o tipo de dados criados por plataformas de mídia social, obtidos por mecanismos de busca e analisados para prever tudo, desde o clima de amanhã até os tópicos de tendência de hoje.

Principais conclusões do Big Data

  • Big Data são dados não estruturados, em escala de exabytes, criados por sites de mídia social, transações financeiras e a própria internet.

  • O big data é muito vasto para ser estruturado em bancos de dados relacionais tradicionais. É preciso aprendizado de máquina e IA para descobrir padrões e extrair percepções.

  • Small data são frequentemente mais acessíveis, mais estruturados e exigem menos esforço para analisar, tornando-os igualmente valiosos, se não mais.

author-image

Por

O que é Big Data?

Big Data é um conceito que descreve a enxurrada de dados não estruturados criados por tudo, desde postagens nas mídias sociais e tráfego de rede até a Internet das Coisas (IoT), câmeras de segurança pública e dados meteorológicos globais. Diferentemente do small data — que pode ser estruturado, armazenado e analisado em um banco de dados relacional — o big data excede a capacidade de tabelas, linhas e colunas em complexidade e processamento.

Small Data e big data estão em um espectro. Você sabe que entrou no ambiente do big data quando vê o volume extremo, a velocidade e a variedade de dados.

Volume de Big Data

Como você deve ter adivinhado, o big data é grande. Enorme, na verdade. Os conjuntos de big data superam facilmente um petabyte (1.000 terabytes) e podem alcançar até os exabytes (1.000 petabytes). Conjuntos de dados desse porte estão além da compreensão humana e da capacidade de computação tradicional. Dar sentido ao big data — identificar padrões significativos, extrair percepções e colocar tudo para funcionar — requer aprendizado de máquina, IA e poder de computação robusto.

Velocidade do Big Data

O big data não vem em um relatório de despesas diárias ou em dados de transações de um mês. O big data vem em tempo real em volumes extremamente altos. Um exemplo: o Google recebe, em média, mais de 40 mil consultas de pesquisa por segundo,1 analisa essas consultas, responde e apresenta publicidade orientada por análise para cada uma delas. Essa é a velocidade do big data.

Variedade do Big Data

Além de vir em petabytes por segundo, o big data vem em todos os tipos de dados, formatos e formas imagináveis. O big data inclui imagens, vídeo, áudio e texto. O big data pode ser estruturado, como os dados do censo, ou completamente desestruturado, como imagens de postagens nas redes sociais.

O big data pode vir de postagens em vídeo, sensores em uma fábrica ou todos os telefones celulares que usam um aplicativo específico.

Por que o Big Data é Importante?

O big data é importante porque sua análise desbloqueia informações e insights que estão além da percepção humana e da capacidade da análise tradicional do banco de dados.

Por exemplo, uma pessoa pode olhar para um termômetro e decidir se deve usar um gorro quente. Um banco de dados pode conter uma década de temperaturas diárias, temperatura de referência cruzada com vendas de gorros, e então projetar quantos gorros um varejista deve encomendar para o mês de outubro em comparação com novembro.

A análise do big data pode revisar selfies enquanto elas são publicadas nas mídias sociais; identificar gorros, o material e o estilo do gorro; e depois recomendar qual é a tendência em gorros — além de analisar os padrões climáticos globais e prever a chance de neve.

Casos de uso do Big Data

Detecção de Fraudes

Bancos, empresas de cartão de crédito, varejistas, processadores de pagamento e reguladores usam a análise do big data para avaliar dados de transações em tempo real para detectar sinais de atividade fraudulenta. Os algoritmos de aprendizado de máquina podem detectar padrões suspeitos, congelar contas e notificar aos clientes que sua conta pode ter sido comprometida. Por exemplo, o PayPal está usando a análise de big data para ajudar a melhorar a precisão da detecção de fraudes e diminuir o tempo da detecção de fraudes.

Análise Preditiva

Câmeras de vídeo, microfones e outros sensores podem monitorar praticamente qualquer máquina — um motor a jato, um equipamento de fábrica, um automóvel — e capturar dados sobre seu desempenho, movimento e ambiente. Quando combinados com aprendizado de máquina e IA, esses dados não estruturados podem ser usados para identificar os primeiros sinais de desgaste, detectar falhas antes de a falha ocorrer, e, no caso dos sistemas de segurança automotiva, intervir ativamente para evitar acidentes.

Análise Espacial e Segurança Pública

O aprendizado de máquina está sendo usado em grandes ambientes públicos, como shoppings, estádios e instalações de trânsito para extrair informações em tempo real de vídeos de segurança. Esses sistemas de análise de big data usam IA de visão computacional para analisar o tráfego de pedestres, identificar gargalos e detectar situações de insegurança. As percepções resultantes podem ser usadas para entender o desempenho do varejo, mudar a equipe para dar apoio a áreas de alta demanda ou alertar os socorristas se a segurança pública estiver ameaçada. A Autoridade de Trânsito de Chicago está usando big data e aprendizado de máquina para ajudar a tornar a experiência de transporte público mais rápida, suave e segura.

Desempenho da Rede

O desempenho das redes de telecomunicações, sem fio e de computação é um caso de uso ideal de big data. Cada pacote que atravessa a rede produz dados de desempenho em tempo real que podem ser analisados por sistemas automatizados capazes de gerar recursos de rede adicionais e otimizar o desempenho. Em horizontes de tempo mais longos, as percepções de big data podem ajudar os construtores de redes a identificar novas necessidades de infraestrutura e priorizar os investimentos.

Sentimento e Consciência

Profissionais de marketing e especialistas em pesquisa usam a análise de big data para monitorar postagens online disponíveis publicamente nas mídias sociais, fóruns e avaliações para identificar tendências, tópicos importantes e o sentimento do público. É claro que as empresas de mídia social utilizam análises de big data ainda mais sofisticadas para produzir sentimentos mais refinados e percepções demográficas.

O que é Small Data?

Small Data são dados que podem ser estruturados e gerenciados por um banco de dados relacional, como qualquer um dos tipos de SQL, Oracle DB, Microsoft Access ou uma planilha básica. Contudo, não se deixe enganar pela palavra “small” em small data. Small Data vem em volumes de gigabytes e até terabytes. Informações como inventário, transações, registros de clientes, histórico de pedidos e desempenho de vendas são exemplos de small data.

Por que o Small Data é Importante?

O Small Data abriga o valor das grandes empresas. Empresas de bilhões de dólares podem extrair a maior parte de suas percepções empresariais de “pequenos” dados estruturados que coletam por meio de suas operações. Um banco de dados tradicional bem projetado pode fornecer serviços de streaming em tempo real para transações dinâmicas, como recomendações de carrinho de compras, painéis de controle em tempo real e transações financeiras.

Casos de uso de Small Data

Bem-estar do Paciente

Enquanto o big data pode ajudar os sistemas de saúde a detectar problemas como erros de faturamento, fraude e ineficiências, o small data pode ajudar a quantificar o progresso individual dos pacientes, a eficácia dos medicamentos e a conformidade com os planos de tratamento.

Operações de Negócios e Eficiência

Qualquer setor que produza dados de transações e eventos, como os setores de viagens e hotelaria, pode extrair percepções usando bancos de dados padrão e análises de small data. Você não precisa de técnicas de big data e IA para analisar partidas dentro do prazo, tempos de rotação da tabela ou taxas de vagas. A análise de small data nesses setores pode impulsionar aplicativos que mantêm os viajantes atualizados sobre o status de seus voos, ajudam os clientes a fazer reservas e avisam quando seus quartos estão prontos.

Cadeia de Suprimentos e Logística

Desde o advento dos códigos de barras, reconhecimento óptico de caracteres (OCR) e identificação por radiofrequência (RFID), as cadeias de suprimentos e serviços de entrega têm produzido dados constantes sobre localização, movimentos e status dos itens. Tudo isso é small data, mesmo que o volume e a velocidade possam ir para o terreno do big data para empresas de transporte global. Por quê? Porque os dados são estruturados e uniformes. A análise de small data em logística pode impulsionar máquinas de classificação automatizadas, enviar pacotes para o destino correto e manter os destinatários informados sobre o andamento do seu pedido.

Vendas e Gerenciamento de Relacionamento com Clientes (CRM)

Os bancos de dados de vendas e CRM são excelentes exemplos de análise de small data no trabalho. Os dados são relativamente homogêneos e estruturados, embora possam gerar percepções importantes dos negócios. Os pedidos aumentam quando os vendedores fazem contato com os clientes com mais frequência? Quais vendedores fecham mais negócios? Quais clientes produzem margens mais altas? As respostas estão no small data produzido pela atividade do calendário e pelas transações de vendas, além de perfis de clientes e funcionários.

Big Data versus Small Data

Esta tabela de comparação fornece uma referência rápida sobre as principais diferenças entre small data e big data e exemplos de como cada um poderia ser empregado em casos de uso semelhantes.

Trabalhando com Dados, Grandes e Pequenos

Tanto o big data quanto o small data apresentam desafios exclusivos. Muitos dos problemas que associamos ao aproveitamento máximo dos dados — capturá-los com precisão, limpá-los e estruturá-los em formulários compatíveis com o banco de dados, além de fazer as perguntas certas da maneira certa — são problemas de small data. Os mesmos processos básicos que definem a obtenção de dados em uma planilha para torná-los utilizáveis, aplicam-se à maioria das análises de dados.

A estruturação e análise de conjuntos de big data está além da capacidade de humanos e ferramentas de computação definidas por humanos, como bancos de dados. O volume, a variedade e a velocidade do big data exigem o aprendizado de máquina simplesmente para analisá-los e compreendê-los. Isso diminui a quantidade de trabalho humano especializado e reduz a complexidade do armazenamento de dados. O big data não precisa dos data warehouses altamente estruturados utilizados no small data. Ele pode viver em data lakes planos, amplos e não estruturados.

Mas os data lakes podem ser imensos, e a análise de big data requer recursos de computação potentes. O big data pode exigir menos capital humano; no entanto, armazenar exabytes de dados e operar sistemas de computação distribuída é caro, seja no local ou na nuvem.

Soluções e Recursos de Big Data

A Intel dá suporte ao processamento de big data e small data com hardware, software e kits de ferramentas de desenvolvedores. A Intel trabalha em estreita colaboração com SAP, Microsoft, Oracle e comunidades de código aberto para garantir que seus produtos de banco de dados e serviços de big data sejam otimizados para processadores Intel® Xeon®. A Intel também fornece distribuições otimizadas de aplicativos de big data de código aberto e ferramentas, juntamente com ferramentas de ciência de dados para small data.

SAP e Intel

A SAP e a Intel trabalham juntas para oferecer computação na memória e desempenho máximo em ambientes locais, de nuvem pública e híbridos.

Saiba mais

Microsoft e Intel

A Intel e a Microsoft garantem que as soluções de bancos de dados de código aberto e de terceiros e de big data aproveitem ao máximo os serviços em nuvem Azure e que o SQL Server seja continuamente otimizado para o hardware Intel® mais recente.

Saiba mais

Oracle e Intel

A Oracle e a Intel fazem parceria nos Oracle Cloud Services, no Oracle Database e Exadata, além do Oracle Machine Learning Module, para garantir que os produtos da Oracle aproveitem as mais recentes tecnologias de segurança, desempenho e aceleração da Intel.

Saiba mais

Tecnologia Intel® CoFluent™

A tecnologia Intel® CoFluent™ é uma ferramenta de simulação para modelar e otimizar clusters de computadores de big data e redes.

Veja como o Intel® CoFluent™ funciona

Base Kit

A Intel® oneAPI é um kit de ferramentas de desenvolvimento de arquitetura cruzada que simplifica o desenvolvimento de arquiteturas de hardware mistas. O kit de ferramentas básico inclui a Intel® oneAPI Data Analytics Library.

Saiba mais

Intel® oneAPI HPC Toolkit

O kit de ferramentas de HPC ajuda os desenvolvedores a criar, analisar e escalar aplicativos em sistemas de computação de memória compartilhada e distribuída.

Saiba mais

Kit de Ferramentas para Análises de IA Intel®

Este kit de ferramentas ajuda a acelerar a ciência de dados de código aberto e os pipelines de aprendizado de máquina. Ele inclui distribuições e otimizações Intel® para Python, TensorFlow e PyTorch.

Saiba mais

Espere Grandes Coisas do Big Data

Se o passado recente for um precedente, o big data continuará a crescer em volume, velocidade e variedade. Ao mesmo tempo, o aumento do poder de computação e da capacidade de armazenamento provavelmente reduzirá os custos e desbloqueará mais percepções de mais dados.

Este círculo virtuoso tornará os benefícios da análise de big data mais acessíveis a mais empresas — e mais pessoas — do que nunca. Espere avanços em medicina e ciência, economia e finanças, e até mesmo em jogos e entretenimento à medida que forem descobertos padrões, significado e valor no big data, que é a vida cotidiana.

Perguntas frequentes

Perguntas frequentes

O big data são dados de alto volume e alta velocidade que chegam em tempo real em uma ampla variedade de tipos de arquivos. Ele pode incluir registros de texto, som, imagens e vídeo. O big data geralmente é associado a sites de mídia social que processam milhões de postagens, imagens e vídeos por dia. No entanto, o big data pode incluir tudo, desde dados meteorológicos até vídeo de tráfego de rodovias.

Os principais fatores que diferenciam o big data são o volume de dados (petabytes a exabytes) e a variedade não estruturada das informações. A análise de big data excede a capacidade dos bancos de dados relacionais. Desbloquear percepções úteis de big data requer computação paralela ou distribuída, aprendizado de máquina e IA.

O big data pode conter percepções significativas, valor comercial e informações críticas. Contudo, essas percepções estão enterradas na escala e no ruído dos conjuntos de dados. Dar sentido e uso ao big data — identificar padrões significativos, extrair percepções e colocar tudo para funcionar — requer aprendizado de máquina, IA e poder de computação robusto.

O oposto de big data é a ausência de dados; porém, quando se fala sobre dados em termos de escala, geralmente é feita uma comparação entre small data e big data. Small data e big data são diferentes, mas não são exatamente opostos. O small data é estruturado, vem em velocidades mais baixas e pode ser analisado com um banco de dados tradicional. O big data não é estruturado, vem em enxurradas de petabytes e simplesmente não cabe em um banco de dados, pois excede a capacidade de tabelas, linhas e colunas em termos de complexidade e processamento.