O que é Big Data?
Big Data é um conceito que descreve a enxurrada de dados não estruturados criados por tudo, desde postagens nas mídias sociais e tráfego de rede até a Internet das Coisas (IoT), câmeras de segurança pública e dados meteorológicos globais. Diferentemente do small data — que pode ser estruturado, armazenado e analisado em um banco de dados relacional — o big data excede a capacidade de tabelas, linhas e colunas em complexidade e processamento.
Small Data e big data estão em um espectro. Você sabe que entrou no ambiente do big data quando vê o volume extremo, a velocidade e a variedade de dados.
Volume de Big Data
Como você deve ter adivinhado, o big data é grande. Enorme, na verdade. Os conjuntos de big data superam facilmente um petabyte (1.000 terabytes) e podem alcançar até os exabytes (1.000 petabytes). Conjuntos de dados desse porte estão além da compreensão humana e da capacidade de computação tradicional. Dar sentido ao big data — identificar padrões significativos, extrair percepções e colocar tudo para funcionar — requer aprendizado de máquina, IA e poder de computação robusto.
Velocidade do Big Data
O big data não vem em um relatório de despesas diárias ou em dados de transações de um mês. O big data vem em tempo real em volumes extremamente altos. Um exemplo: o Google recebe, em média, mais de 40 mil consultas de pesquisa por segundo,1 analisa essas consultas, responde e apresenta publicidade orientada por análise para cada uma delas. Essa é a velocidade do big data.
Variedade do Big Data
Além de vir em petabytes por segundo, o big data vem em todos os tipos de dados, formatos e formas imagináveis. O big data inclui imagens, vídeo, áudio e texto. O big data pode ser estruturado, como os dados do censo, ou completamente desestruturado, como imagens de postagens nas redes sociais.
O big data pode vir de postagens em vídeo, sensores em uma fábrica ou todos os telefones celulares que usam um aplicativo específico.
Por que o Big Data é Importante?
O big data é importante porque sua análise desbloqueia informações e insights que estão além da percepção humana e da capacidade da análise tradicional do banco de dados.
Por exemplo, uma pessoa pode olhar para um termômetro e decidir se deve usar um gorro quente. Um banco de dados pode conter uma década de temperaturas diárias, temperatura de referência cruzada com vendas de gorros, e então projetar quantos gorros um varejista deve encomendar para o mês de outubro em comparação com novembro.
A análise do big data pode revisar selfies enquanto elas são publicadas nas mídias sociais; identificar gorros, o material e o estilo do gorro; e depois recomendar qual é a tendência em gorros — além de analisar os padrões climáticos globais e prever a chance de neve.
Casos de uso do Big Data
Detecção de Fraudes
Bancos, empresas de cartão de crédito, varejistas, processadores de pagamento e reguladores usam a análise do big data para avaliar dados de transações em tempo real para detectar sinais de atividade fraudulenta. Os algoritmos de aprendizado de máquina podem detectar padrões suspeitos, congelar contas e notificar aos clientes que sua conta pode ter sido comprometida. Por exemplo, o PayPal está usando a análise de big data para ajudar a melhorar a precisão da detecção de fraudes e diminuir o tempo da detecção de fraudes.
Análise Preditiva
Câmeras de vídeo, microfones e outros sensores podem monitorar praticamente qualquer máquina — um motor a jato, um equipamento de fábrica, um automóvel — e capturar dados sobre seu desempenho, movimento e ambiente. Quando combinados com aprendizado de máquina e IA, esses dados não estruturados podem ser usados para identificar os primeiros sinais de desgaste, detectar falhas antes de a falha ocorrer, e, no caso dos sistemas de segurança automotiva, intervir ativamente para evitar acidentes.
Análise Espacial e Segurança Pública
O aprendizado de máquina está sendo usado em grandes ambientes públicos, como shoppings, estádios e instalações de trânsito para extrair informações em tempo real de vídeos de segurança. Esses sistemas de análise de big data usam IA de visão computacional para analisar o tráfego de pedestres, identificar gargalos e detectar situações de insegurança. As percepções resultantes podem ser usadas para entender o desempenho do varejo, mudar a equipe para dar apoio a áreas de alta demanda ou alertar os socorristas se a segurança pública estiver ameaçada. A Autoridade de Trânsito de Chicago está usando big data e aprendizado de máquina para ajudar a tornar a experiência de transporte público mais rápida, suave e segura.
Desempenho da Rede
O desempenho das redes de telecomunicações, sem fio e de computação é um caso de uso ideal de big data. Cada pacote que atravessa a rede produz dados de desempenho em tempo real que podem ser analisados por sistemas automatizados capazes de gerar recursos de rede adicionais e otimizar o desempenho. Em horizontes de tempo mais longos, as percepções de big data podem ajudar os construtores de redes a identificar novas necessidades de infraestrutura e priorizar os investimentos.
Sentimento e Consciência
Profissionais de marketing e especialistas em pesquisa usam a análise de big data para monitorar postagens online disponíveis publicamente nas mídias sociais, fóruns e avaliações para identificar tendências, tópicos importantes e o sentimento do público. É claro que as empresas de mídia social utilizam análises de big data ainda mais sofisticadas para produzir sentimentos mais refinados e percepções demográficas.
O que é Small Data?
Small Data são dados que podem ser estruturados e gerenciados por um banco de dados relacional, como qualquer um dos tipos de SQL, Oracle DB, Microsoft Access ou uma planilha básica. Contudo, não se deixe enganar pela palavra “small” em small data. Small Data vem em volumes de gigabytes e até terabytes. Informações como inventário, transações, registros de clientes, histórico de pedidos e desempenho de vendas são exemplos de small data.
Por que o Small Data é Importante?
O Small Data abriga o valor das grandes empresas. Empresas de bilhões de dólares podem extrair a maior parte de suas percepções empresariais de “pequenos” dados estruturados que coletam por meio de suas operações. Um banco de dados tradicional bem projetado pode fornecer serviços de streaming em tempo real para transações dinâmicas, como recomendações de carrinho de compras, painéis de controle em tempo real e transações financeiras.
Casos de uso de Small Data
Bem-estar do Paciente
Enquanto o big data pode ajudar os sistemas de saúde a detectar problemas como erros de faturamento, fraude e ineficiências, o small data pode ajudar a quantificar o progresso individual dos pacientes, a eficácia dos medicamentos e a conformidade com os planos de tratamento.
Operações de Negócios e Eficiência
Qualquer setor que produza dados de transações e eventos, como os setores de viagens e hotelaria, pode extrair percepções usando bancos de dados padrão e análises de small data. Você não precisa de técnicas de big data e IA para analisar partidas dentro do prazo, tempos de rotação da tabela ou taxas de vagas. A análise de small data nesses setores pode impulsionar aplicativos que mantêm os viajantes atualizados sobre o status de seus voos, ajudam os clientes a fazer reservas e avisam quando seus quartos estão prontos.
Cadeia de Suprimentos e Logística
Desde o advento dos códigos de barras, reconhecimento óptico de caracteres (OCR) e identificação por radiofrequência (RFID), as cadeias de suprimentos e serviços de entrega têm produzido dados constantes sobre localização, movimentos e status dos itens. Tudo isso é small data, mesmo que o volume e a velocidade possam ir para o terreno do big data para empresas de transporte global. Por quê? Porque os dados são estruturados e uniformes. A análise de small data em logística pode impulsionar máquinas de classificação automatizadas, enviar pacotes para o destino correto e manter os destinatários informados sobre o andamento do seu pedido.
Vendas e Gerenciamento de Relacionamento com Clientes (CRM)
Os bancos de dados de vendas e CRM são excelentes exemplos de análise de small data no trabalho. Os dados são relativamente homogêneos e estruturados, embora possam gerar percepções importantes dos negócios. Os pedidos aumentam quando os vendedores fazem contato com os clientes com mais frequência? Quais vendedores fecham mais negócios? Quais clientes produzem margens mais altas? As respostas estão no small data produzido pela atividade do calendário e pelas transações de vendas, além de perfis de clientes e funcionários.
Big Data versus Small Data
Esta tabela de comparação fornece uma referência rápida sobre as principais diferenças entre small data e big data e exemplos de como cada um poderia ser empregado em casos de uso semelhantes.
|
Small Data |
Big Data |
---|---|---|
Volume de dados |
Gigabytes a terabytes |
Petabytes a exabytes |
Velocidade dos dados |
Controlada e constante; coleta ao longo do tempo |
Grandes volumes a velocidades extremamente altas |
Variedade dos dados |
Baixa: dados de texto tipicamente tabulares |
Alta: dados tabulares, JSON, imagens, texto, áudio, vídeo |
Qualidade dos dados |
Alta: geralmente coletados de fontes definidas e controladas |
Imprevisível: vem de várias fontes orgânicas |
Limpeza de dados, preparação, otimização |
Processos manuais e automatizados (programados por humanos) |
Algoritmos de aprendizado de máquina, IA |
Estrutura de dados |
Muitas vezes estruturados na fonte, alojados em um banco de dados relacional |
Mistura não estruturada de vários tipos de dados |
Hospedagem dos dados |
Data mart, data warehouse, local ou na nuvem |
Data lakes, malha de dados em nuvens públicas, híbridas ou privadas |
ferramentas de análise de dados |
Bancos de dados tradicionais, SQL |
Aprendizado de máquina, IA, malha de dados, SQL, Python, R, Java, Apache Spark |
Necessidades de computação |
Varia de um único servidor até a exigência de recursos de nuvem |
Computação paralela e distribuída, clusters, recursos de nuvem |
Amostras de casos de uso |
||
|
Small Data |
Big Data |
Geral |
Inteligência empresarial, relatórios, vendas e CRM, transações orientadas por percepções e dados e tomada de decisão |
Mineração de dados, análise preditiva, reconhecimento de padrões, análise de sentimentos |
Companhias aéreas |
Desempenho pontual, dados de voos, bilhetagem, CRM, programas de fidelidade |
Percepção da marca nas mídias sociais, manutenção de aeronaves, eficiência do combustível, planejamento e otimização de rotas |
Remessas e logística |
Rastreamento de pacotes, classificação automatizada, seleção, embalagem, relatórios de status e entrega, eficiência operacional |
Previsão, otimização de itinerário de pacotes, análise de vídeo para prevenção de perdas, segurança do trabalhador |
Assistência médica |
Progresso individual dos pacientes, melhoria contínua da qualidade, eficiência clínica |
Detecção de erros e fraudes, eficiência em todo o sistema, tendências de saúde em larga escala e análise de resultados |
Varejo |
Programas de fidelidade de clientes, desempenho de produtos, promoções, transações inteligentes, prevenção de perdas |
Detecção de tendências, previsão, prevenção de fraudes, gerenciamento de inventário e cadeia de suprimentos, marketing |
Finanças |
Contabilidade e análise de empresas individuais e empresas, análise de transações, percepções em tempo real e históricas |
Detecção de fraudes, análise de negociações de alto volume, transações orientadas por IA |
Trabalhando com Dados, Grandes e Pequenos
Tanto o big data quanto o small data apresentam desafios exclusivos. Muitos dos problemas que associamos ao aproveitamento máximo dos dados — capturá-los com precisão, limpá-los e estruturá-los em formulários compatíveis com o banco de dados, além de fazer as perguntas certas da maneira certa — são problemas de small data. Os mesmos processos básicos que definem a obtenção de dados em uma planilha para torná-los utilizáveis, aplicam-se à maioria das análises de dados.
A estruturação e análise de conjuntos de big data está além da capacidade de humanos e ferramentas de computação definidas por humanos, como bancos de dados. O volume, a variedade e a velocidade do big data exigem o aprendizado de máquina simplesmente para analisá-los e compreendê-los. Isso diminui a quantidade de trabalho humano especializado e reduz a complexidade do armazenamento de dados. O big data não precisa dos data warehouses altamente estruturados utilizados no small data. Ele pode viver em data lakes planos, amplos e não estruturados.
Mas os data lakes podem ser imensos, e a análise de big data requer recursos de computação potentes. O big data pode exigir menos capital humano; no entanto, armazenar exabytes de dados e operar sistemas de computação distribuída é caro, seja no local ou na nuvem.
Soluções e Recursos de Big Data
A Intel dá suporte ao processamento de big data e small data com hardware, software e kits de ferramentas de desenvolvedores. A Intel trabalha em estreita colaboração com SAP, Microsoft, Oracle e comunidades de código aberto para garantir que seus produtos de banco de dados e serviços de big data sejam otimizados para processadores Intel® Xeon®. A Intel também fornece distribuições otimizadas de aplicativos de big data de código aberto e ferramentas, juntamente com ferramentas de ciência de dados para small data.
SAP e Intel
A SAP e a Intel trabalham juntas para oferecer computação na memória e desempenho máximo em ambientes locais, de nuvem pública e híbridos.
Microsoft e Intel
A Intel e a Microsoft garantem que as soluções de bancos de dados de código aberto e de terceiros e de big data aproveitem ao máximo os serviços em nuvem Azure e que o SQL Server seja continuamente otimizado para o hardware Intel® mais recente.
Oracle e Intel
A Oracle e a Intel fazem parceria nos Oracle Cloud Services, no Oracle Database e Exadata, além do Oracle Machine Learning Module, para garantir que os produtos da Oracle aproveitem as mais recentes tecnologias de segurança, desempenho e aceleração da Intel.
Tecnologia Intel® CoFluent™
A tecnologia Intel® CoFluent™ é uma ferramenta de simulação para modelar e otimizar clusters de computadores de big data e redes.
Veja como o Intel® CoFluent™ funciona
Base Kit
A Intel® oneAPI é um kit de ferramentas de desenvolvimento de arquitetura cruzada que simplifica o desenvolvimento de arquiteturas de hardware mistas. O kit de ferramentas básico inclui a Intel® oneAPI Data Analytics Library.
Intel® oneAPI HPC Toolkit
O kit de ferramentas de HPC ajuda os desenvolvedores a criar, analisar e escalar aplicativos em sistemas de computação de memória compartilhada e distribuída.
Kit de Ferramentas para Análises de IA Intel®
Este kit de ferramentas ajuda a acelerar a ciência de dados de código aberto e os pipelines de aprendizado de máquina. Ele inclui distribuições e otimizações Intel® para Python, TensorFlow e PyTorch.
Espere Grandes Coisas do Big Data
Se o passado recente for um precedente, o big data continuará a crescer em volume, velocidade e variedade. Ao mesmo tempo, o aumento do poder de computação e da capacidade de armazenamento provavelmente reduzirá os custos e desbloqueará mais percepções de mais dados.
Este círculo virtuoso tornará os benefícios da análise de big data mais acessíveis a mais empresas — e mais pessoas — do que nunca. Espere avanços em medicina e ciência, economia e finanças, e até mesmo em jogos e entretenimento à medida que forem descobertos padrões, significado e valor no big data, que é a vida cotidiana.