Conheça o Hadoop, sistema de código aberto que iniciou o processamento de Big Data

Ao mesmo tempo em que revolucionou a ciência de dados, o Big Data desafiou toda a estrutura de tecnologia da informação até então utilizada no mundo. Alguns projetos tiveram importância crucial na viabilização do processamento de dados não-estruturados em grande volume. Um deles é o Hadoop, plataforma de softwares de código aberto consagrada na comunidade de TI.

Mas por que o Hadoop alcançou uma importância tão grande? É o que vamos abordar neste artigo, trazendo um pouco sobre a história do projeto, como o sistema funciona na prática (de forma simplificada, é claro) e para quais tipos de aplicação é utilizado atualmente.

Se você se interessa por análise de dados e Big Data, não há como deixar de conhecer o Hadoop. A presença da plataforma é sistemática, de pequenas a grandes empresas. Siga com a leitura e você vai entender quais diferenciais tornam esse sistema único.

Para começar: o que é e como funciona o Hadoop

O Hadoop é uma plataforma de softwares de código aberto, com componentes que permitem o processamento de dados com base em computação distribuída. Se esses termos são muito complexos para você, não se preocupe, porque vamos explicá-los em detalhes a seguir.

Uma das características principais do Hadoop – e que explica, em parte, o sucesso que alcançou – é o fato de ter código aberto. Ou seja, o sistema é desenvolvido de forma colaborativa e qualquer pessoa ou empresa pode ter acesso livre ao código para alterá-lo a partir do que considerar relevante.

Outro ponto importante sobre o Hadoop é que o sistema tem capacidade de armazenar e processar todos os tipos de dados rapidamente, até mesmo não-estruturados. Isso já faz do Hadoop uma plataforma de softwares promissora em termos de Big Data.

Por meio da computação distribuída, o Hadoop oferece alto poder computacional. Na prática, isso quer dizer que o sistema processa grandes volumes de dados – outro aspecto inerente ao Big Data. E não há necessidade de hardwares sofisticados para fazer os componentes do Hadoop trabalharem.

A lógica por trás do processamento distribuído é a seguinte: o poder computacional é construído pela interligação entre computadores comuns. As unidades processadoras (CPUs) estão separadas fisicamente, mas compartilham informações – nesse caso, por meio do Hadoop.

O poder total de processamento depende de quantos nós computacionais existem em um cluster, ou seja, do número de CPUs que formam um sistema. É por esse motivo que o Hadoop é considerado uma solução de baixo custo para implementação de Big Data.

Um ponto importante a ser destacado é que o Hadoop não se resume a apenas um software. Na verdade, trata-se de um conjunto de componentes acessível – tanto pelo fato de ter código aberto como pela linguagem utilizada na programação – que permite às empresas aproveitar os benefícios de Big Data sem que seja necessário alto investimento.

História do Hadoop

A origem do Hadoop remete ao movimento global para criação de motores de busca que fossem capazes de oferecer respostas automatizadas a pesquisas feitas na internet. No início dos anos 2000, à medida que a web crescia de forma exponencial, muitos projetos nasceram com esse objetivo.

Um desses projetos era o Apache Nutch, idealizado por Doug Cutting e Mike Cafarella em 2002. Pouco tempo depois de começar os trabalhos, a equipe envolvida percebeu que a estrutura prevista para o sistema não poderia escalar a ponto de acompanhar a multiplicação de páginas web, que já chegavam aos bilhões.

Em 2003, a publicação de um paper mudou os rumos do Nutch. Nesse artigo, estava descrita a arquitetura do Google File System (GFS), um sistema de arquivos distribuídos, que influenciou a implementação em código aberto do Nutch Distributed File System (NDFS).

No mesmo ano que o NDFS ganhou vida, 2004, a Google já havia avançado para a apresentação do MapReduce, modelo de programação desenhado para processar grandes volumes de dados em paralelo. Em 2005, os desenvolvedores do Nutch seguiram o mesmo caminho.

A essa altura, tanto o NDFS como o MapReduce tinham extrapolado a atuação enquanto motores de busca. O que aconteceu, então, foi um desmembramento, e o Hadoop tomou forma como projeto independente focado em armazenamento e processamento distribuído de dados. Doug Cutting passou a liderar uma equipe no Yahoo! dedicada exclusivamente ao Hadoop.

Em abril de 2008, o Hadoop se consagrou como o sistema mais rápido do mundo, processando um terabyte de dados em 209 segundos. Atualmente, o Hadoop é mantido pela Apache Software Foundation, uma comunidade mundial de desenvolvedores, mantendo a sua essência open-source.

O sistema é disponibilizado pela Apache em módulos básicos, que tornam a manipulação do software muito restrita a profissionais de TI especializados. É por essa razão que, ao longo do tempo, foram criadas versões comerciais do Hadoop, como a Cloudera, mais acessíveis no que se refere à instalação e execução.

Um fato interessante na história do Hadoop é a escolha do nome para o sistema, que muitas pessoas pensam se tratar de uma sigla. Na verdade, Doug Cutting se inspirou no nome que sua filha deu a um elefante de pelúcia amarelo.

Por trás do nome lúdico, existe um sistema robusto utilizado até mesmo por gigantes como Google, Amazon e Microsoft. E com a dedicação de desenvolvedores em todo o mundo, o Hadoop não para de ser aperfeiçoado.

Quando o Hadoop deve ser considerado uma opção pelas empresas?

A grande questão para as empresas é entender em qual momento o Hadoop passa a ser uma alternativa interessante para análise de dados. O indicativo principal está na insuficiência dos bancos de dados convencionais para armazenar e processar um volume de dados que cresce de forma significativa em pouco tempo.

Quando a empresa identifica que precisa de soluções de análise de dados com elasticidade, isso mostra que há uma exigência de Big Data. Mas, como internalizar um sistema de Big Data é algo complexo e custoso, o Hadoop oferece uma plataforma de softwares que facilita toda a operação. É como se fosse uma caixa de ferramentas, em que existe uma ferramenta para cada etapa do processo de Big Data.

Em termos de aplicação, o Hadoop é bastante versátil e atende a demandas variadas dos negócios. Com a utilização do sistema, as empresas podem armazenar uma grande variedade de dados a baixo custo. Assim, é possível manter um arquivo histórico de dados para utilização em diversos tipos de análises.

A associação do Hadoop com algoritmos de Big Data Analytics permite que as empresas estabeleçam uma estratégia consistente de análise de dados, levando informações de valor aos tomadores de decisão. Um suporte tecnológico desse nível, junto a uma forte cultura de dados, pode gerar descobertas oportunas e impulsionar a inteligência competitiva de um negócio.

Outra área de atuação do Hadoop é a Internet das Coisas (IoT). O sistema apoia a conexão entre objetos com o processamento contínuo de um grande volume de dados, monitorando padrões e estabelecendo instruções de como os objetos devem agir e se comunicar.

Um sistema como o Hadoop, que segue em plena atividade depois de mais de uma década, ganha cada vez mais funcionalidade com os esforços coletivos de aprimoramento. O Hadoop, que guiou o início do processamento de Big Data, ainda não mostra sinais de aposentadoria.

BLOG SOBRE O PODER DOS DADOS

PARA LÍDERES E EMPRESAS

Conheça o Hadoop, sistema de código aberto que iniciou o processamento de Big Data

Para começar: o que é e como funciona o Hadoop

História do Hadoop

Quando o Hadoop deve ser considerado uma opção pelas empresas?

Deixe um comentário Cancelar resposta

Veja também

Cognitivo e Dexco dão as mãos em inovador projeto de Fábrica de IA

Como Big Data e Analytics se complementam para apoiar a tomada de decisão

Escritório de advocacia automatiza análise de movimentações em processos com inteligência artificial

Inscreva-se em nossa newsletter

Aprofunde-se no mundo dos dados:

Conecte-se com a Cognitivo: