Lar Tendências 7 coisas para saber sobre o hadoop

7 coisas para saber sobre o hadoop

Índice:

Anonim

O que é o Hadoop? É um elefante de brinquedo amarelo. Não é o que você estava esperando? Que tal isso: Doug Cutting - co-criador deste projeto de software de código aberto - pegou emprestado o nome de seu filho que por acaso chamou seu elefante de brinquedo de Hadoop. Em poucas palavras, o Hadoop é uma estrutura de software desenvolvida pela Apache Software Foundation que é usada para desenvolver computação distribuída e com uso intenso de dados. E é um componente-chave em outros leitores de palavras-chave que nunca conseguem obter o suficiente: big data. Aqui estão sete coisas que você deve saber sobre este software exclusivo e licenciado gratuitamente.

Como o Hadoop começou?

Doze anos atrás, o Google construiu uma plataforma para manipular a enorme quantidade de dados que estava coletando. Como a empresa costuma fazer, o Google disponibilizou seu design ao público na forma de dois documentos: Google File System e MapReduce.


Ao mesmo tempo, Doug Cutting e Mike Cafarella estavam trabalhando no Nutch, um novo mecanismo de busca. Os dois também estavam lutando para lidar com grandes quantidades de dados. Então os dois pesquisadores descobriram os papéis do Google. Essa interseção feliz mudou tudo, apresentando o Cutting e Cafarella a um sistema de arquivos melhor e uma maneira de acompanhar os dados, levando à criação do Hadoop.

O que é tão importante no Hadoop?

Hoje, a coleta de dados está mais fácil do que nunca. Ter todos esses dados apresenta muitas oportunidades, mas também há desafios:

  • Quantidades maciças de dados requerem novos métodos de processamento.
  • Os dados que estão sendo capturados estão em um formato não estruturado.
Para superar os desafios de manipular imensas quantidades de dados não estruturados, a Cutting e Cafarella apresentaram uma solução em duas partes. Para resolver o problema da quantidade de dados, o Hadoop emprega um ambiente distribuído - uma rede de servidores básicos - criando um cluster de processamento paralelo, que traz mais poder de processamento para a tarefa atribuída.


Em seguida, eles tiveram que lidar com dados não estruturados ou em formatos que os sistemas de banco de dados relacional padrão não conseguiam lidar. Cutting e Cafarella projetaram o Hadoop para trabalhar com qualquer tipo de dados: estruturado, não estruturado, imagens, arquivos de áudio e até texto. Este white paper da Cloudera (integrador do Hadoop) explica por que isso é importante:

    "Ao tornar todos os seus dados utilizáveis, e não apenas o que há em seus bancos de dados, o Hadoop permite descobrir relacionamentos ocultos e revelar respostas que sempre estão fora de alcance. Você pode começar a tomar mais decisões com base em dados concretos, em vez de palpites, e procurar em conjuntos de dados completos, não apenas amostras e resumos ".

O que é o esquema na leitura?

Como mencionado anteriormente, uma das vantagens do Hadoop é sua capacidade de manipular dados não estruturados. Em certo sentido, isso é "chutar a lata pela estrada". Eventualmente, os dados precisam de algum tipo de estrutura para analisá-los.


É aí que o esquema de leitura entra em jogo. Esquema na leitura é a combinação do formato dos dados, onde encontrar os dados (lembre-se de que os dados estão espalhados por vários servidores) e o que deve ser feito com os dados - não é uma tarefa simples. Dizem que a manipulação de dados em um sistema Hadoop requer as habilidades de um analista de negócios, estatístico e programador Java. Infelizmente, não há muitas pessoas com essas qualificações.

O que é o Hive?

Se o Hadoop fosse bem-sucedido, o trabalho com os dados teria que ser simplificado. Então, a multidão de código aberto começou a trabalhar e criou o Hive:

    "O Hive fornece um mecanismo para projetar a estrutura desses dados e consultá-los usando uma linguagem semelhante ao SQL chamada HiveQL. Ao mesmo tempo, essa linguagem também permite que os programadores tradicionais de mapas / reduções conectem seus mapeadores e redutores personalizados quando for inconveniente ou ineficiente para expressar essa lógica no HiveQL. "

O Hive possibilita o melhor dos dois mundos: o pessoal do banco de dados familiarizado com os comandos SQL pode manipular os dados e os desenvolvedores familiarizados com o esquema no processo de leitura ainda são capazes de criar consultas personalizadas.

Que tipo de dados o Hadoop analisa?

A análise da Web é a primeira coisa que vem à mente, analisando logs e tráfego da Web, a fim de otimizar sites. O Facebook, por exemplo, é definitivamente analítico da Web, usando o Hadoop para classificar os terabytes de dados que a empresa acumula.


As empresas usam os clusters do Hadoop para realizar análises de risco, detecção de fraudes e segmentação da base de clientes. As empresas de serviços públicos usam o Hadoop para analisar os dados dos sensores de sua rede elétrica, permitindo otimizar a produção de eletricidade. Grandes empresas como Target, 3M e Medtronics usam o Hadoop para otimizar a distribuição de produtos, avaliações de risco comercial e segmentação da base de clientes.


As universidades também investem no Hadoop. Brad Rubin, professor associado dos Programas de Pós-Graduação em Software da Universidade de St. Thomas, mencionou que sua experiência no Hadoop está ajudando a classificar as grandes quantidades de dados compilados pelos grupos de pesquisa da universidade.

Você pode dar um exemplo do Hadoop no mundo real?

Um dos exemplos mais conhecidos é o TimesMachine. O New York Times possui uma coleção de imagens TIFF de jornal de página inteira, metadados associados e texto de artigo de 1851 a 1922, totalizando terabytes de dados. Derek Gottfrid, do NYT, usando um sistema EC2 / S3 / Hadoop e código especializado:

    "Ingeriu 405.000 imagens TIFF muito grandes, 3, 3 milhões de artigos em SGML e 405.000 arquivos xml mapeando artigos para regiões retangulares nos TIFFs. Esses dados foram convertidos em 810.000 imagens PNG mais amigáveis ​​à Web (miniaturas e imagens completas) e 405.000 arquivos JavaScript. "

Usando servidores na nuvem Amazon Web Services, Gottfrid mencionou que era capaz de processar todos os dados necessários para o TimesMachine em menos de 36 horas.

O Hadoop já está obsoleto ou apenas se transformando?

O Hadoop existe há mais de uma década. Isso tem muitos dizendo que é obsoleto. Um especialista, Dr. David Rico, disse que "os produtos de TI têm vida curta. Nos anos de cão, os produtos do Google têm cerca de 70, enquanto o Hadoop tem 56".


Pode haver alguma verdade no que Rico diz. Parece que o Hadoop está passando por uma grande reforma. Para saber mais, Rubin me convidou para uma reunião do Grupo de Usuários do Twin Cities Hadoop, e o tópico da discussão foi Introdução ao YARN:

    "O Apache Hadoop 2 inclui um novo mecanismo MapReduce, que possui várias vantagens em relação à implementação anterior, incluindo melhor escalabilidade e utilização de recursos. A nova implementação foi criada em um sistema geral de gerenciamento de recursos para a execução de aplicativos distribuídos chamados YARN".
O Hadoop recebe muita atenção nos círculos de gerenciamento de banco de dados e conteúdo, mas ainda há muitas perguntas sobre ele e a melhor maneira de usá-lo. Este são apenas alguns. Se você tiver mais, envie-os do nosso jeito. Responderemos os melhores em Techopedia.com.

7 coisas para saber sobre o hadoop