Neste nosso mundo tecnológico, precisamos ficar ligados a todo momento, pois ficamos obsoletos em uma fração de segundos.
O framework Hadoop, lançado no final de 2011, é uma plataforma para análise de dados de código aberto desenvolvida pela Apache, está se tornando fundamental para ajudar empresas a gerirem grandes volumes de dados.
A plataforma aberta de computação distribuída ganhou impulso como mecanismo para lidar com o conceito de Big Data, segundo o qual as empresas procuram extrair valor dos dados de seus sistemas de informação. Usuários corporativos estão adotando tanto as tecnologias da plataforma Hadoop existentes como as que complementam sistemas que desenvolvem.
A Nasa adota a Hadoop para lidar com grandes volumes de dados em projetos como o Square Kilometre Array, um radio telescópio para visualização do céu. Estima-se que este sistema produzirá 700 terabytes de dados por hora quando for construído na próxima década.
Os sistemas vão incluir a Hadoop, assim como tecnologias Apache Object Oriented Data Technology (OODT) para gerenciar grandes volumes de informações.
O Twitter é outro grande usuário de Hadoop. Segundo a empresa, todos os produtos de relevância [a partir dos quais oferece recomendações personalizadas aos usuários] têm alguma interação com a Hadoop”.
A rede social adota Hadoop há cerca de quatro anos e até desenvolveu o Scalding, um repositório Scala para facilitar tarefas executadas pelo Hadoop através do framework MapReduce. A ferramenta foi desenhada sobre o repositório Cascading Java, criado para reduzir a complexidade da plataforma Hadoop.
Os subprojetos da Hadoop incluem o framework MapReduce, que é uma matriz de software para o processamento de grandes conjuntos de processamento em clusters; a Hadoop Distributed File System (HDFS), que oferece acesso rápido a dados de aplicações e Common, com utilitários para apoiar outros subprojetos Hadoop.
A rede social Tagged utiliza a tecnologia Hadoop para análise de informações e processa cerca de meio terabyte de novos dados diários, segundo engenheiros da empresa, a Hadoop está sendo aplicada em tarefas que superam a capacidade da ferramenta Greenplum, comprada pela EMC.
Apesar de elogiarem a Hadoop, os usuários apontam deficiências como a fiabilidade e monitoramento de tarefas. Um dos problemas é a latência. “O tempo para obter dados é bastante rápido, mas todos reclamam da grande latência na execução de consultas”. A Tagged utiliza a Apache Hive, outro projeto derivado da Hadoop, para consultas “ad hoc”.
“Isso pode levar vários minutos para obter resultados que, na Greenplum, levaria questões de segundos”. Mas usar a Hadoop é mais barato que Greenplum.
O que promete a Hadoop 2.0
A Hadoop 1.0 foi lançada no final de 2011, com tecnologia de autenticação forte via Kerberos e suporte para bases de dados HBase. A versão também impede os usuários individuais de derrubarem clusters, usando restrições sobre a MapReduce.
Mas uma nova versão está no horizonte. A plataforma entrou em fase alfa no início deste ano “e terá a camada de MapReduce recodificada de extremo a extremo, além de uma reescrita completa de toda a lógica de armazenamento e da camada de HDFS “.
A Hadoop 2.0 estará focada na escala e inovação, baseada na Yarn (próxima geração da MapReduce) e em recursos de federação. A Yarn permitirá aos usuários adicionar os seus próprios modelos de computação para não ficarem presos à MapReduce.
As adoções previstas incluem aplicações de tempo real e algoritmos de aprendizagem artificial, além das operações de armazenamento com capacidade de expansão.
Capacidades de funcionamento o tempo todo da versão 2.0 deverão permitir a constituição de clusters sem tempo de inatividade. A versão prevê também o armazenamento escalável. A Hadoop 2.0 estará disponível dentro de um ano.