O que o $ @! é hadoop?

2025

Índice:

De onde veio o Hadoop?
Como o Hadoop funciona?
O que o Hadoop faz?

Todo mundo está falando sobre o Hadoop, a nova tecnologia quente que é altamente valorizada entre os desenvolvedores e que pode mudar o mundo (de novo). Mas o que é isso afinal? É uma linguagem de programação? Um banco de dados? Um sistema de processamento? Um chá indiano aconchegante?

A resposta ampla: o Hadoop é tudo isso (exceto o chá aconchegante) e muito mais. É uma biblioteca de software que fornece uma estrutura de programação para processamento útil e barato de outra palavra de ordem moderna: big data.

De onde veio o Hadoop?

O Apache Hadoop faz parte do Projeto Foundation da Apache Software Foundation, uma organização sem fins lucrativos cuja missão é "fornecer software para o bem público". Como tal, a biblioteca Hadoop é um software de código aberto disponível para todos os desenvolvedores.

A tecnologia subjacente que alimenta o Hadoop foi realmente inventada pelo Google. Nos primeiros dias, o mecanismo de pesquisa não tão gigante precisava de uma maneira de indexar a enorme quantidade de dados que eles estavam coletando da Internet e transformá-lo em resultados significativos e relevantes para seus usuários. Com nada disponível no mercado que pudesse atender a seus requisitos, o Google construiu sua própria plataforma.

Essas inovações foram lançadas em um projeto de código aberto chamado Nutch, que o Hadoop mais tarde usou como base. Essencialmente, o Hadoop aplica o poder do Google ao big data de maneira acessível para empresas de todos os tamanhos.

Como o Hadoop funciona?

Como mencionado anteriormente, o Hadoop não é uma coisa - é muitas coisas. A biblioteca de software que é o Hadoop consiste em quatro partes principais (módulos) e várias soluções complementares (como bancos de dados e linguagens de programação) que aprimoram seu uso no mundo real. Os quatro módulos são:

Hadoop Common: esta é a coleção de utilitários comuns (a biblioteca comum) que suporta módulos Hadoop.

Sistema de arquivos distribuídos do Hadoop (HDFS): um sistema de arquivos distribuído robusto, sem restrições aos dados armazenados (o que significa que os dados podem ser estruturados ou não estruturados e sem esquema, em que muitos DFSs armazenam apenas dados estruturados) que fornecem acesso de alto rendimento com redundância ( O HDFS permite que os dados sejam armazenados em várias máquinas - portanto, se uma máquina falhar, a disponibilidade será mantida nas outras máquinas).

Hadoop YARN: Essa estrutura é responsável pelo agendamento de tarefas e pelo gerenciamento de recursos de cluster; garante que os dados sejam espalhados o suficiente por várias máquinas para manter a redundância. YARN é o módulo que faz do Hadoop uma maneira acessível e econômica de processar big data.

Hadoop MapReduce: esse sistema baseado em YARN, desenvolvido com a tecnologia do Google, realiza processamento paralelo de grandes conjuntos de dados (estruturados e não estruturados). O MapReduce também pode ser encontrado na maioria das estruturas de processamento de dados atuais, incluindo os bancos de dados MPP e NoSQL.

Todos esses módulos trabalhando juntos geram processamento distribuído para grandes conjuntos de dados. A estrutura do Hadoop usa modelos de programação simples que são replicados em grupos de computadores, o que significa que o sistema pode ser escalado de servidores únicos para milhares de máquinas para aumentar o poder de processamento, em vez de depender apenas do hardware.

O hardware que pode lidar com a quantidade de poder de processamento necessária para trabalhar com big data é caro, para dizer o mínimo. Essa é a verdadeira inovação do Hadoop: a capacidade de dividir grandes quantidades de poder de processamento em várias máquinas menores, cada uma com seu próprio computador e armazenamento localizados, além de redundância integrada no nível do aplicativo para evitar falhas.

O que o Hadoop faz?

Em termos simples, o Hadoop torna o big data acessível e utilizável a todos.

Antes do Hadoop, as empresas que usavam big data o faziam principalmente com bancos de dados relacionais e data warehouses corporativos (que usam grandes quantidades de hardware caro). Embora essas ferramentas sejam ótimas para o processamento de dados estruturados - que já são classificados e organizados de maneira gerenciável -, a capacidade de processar dados não estruturados era extremamente limitada, tanto que era praticamente inexistente. Para serem utilizáveis, os dados precisavam primeiro ser estruturados para que se ajustassem perfeitamente às tabelas.

A estrutura do Hadoop altera esse requisito e o faz de forma barata. Com o Hadoop, grandes quantidades de dados de 10 a 100 gigabytes ou mais, estruturadas e não estruturadas, podem ser processadas usando servidores comuns (comuns).

O Hadoop traz aplicativos de big data em potencial para empresas de todos os tamanhos, em todos os setores. A estrutura de código aberto permite que as empresas financeiras criem modelos sofisticados para avaliação de portfólio e análise de risco, ou varejistas on-line ajustem suas respostas de pesquisa e direcionem os clientes para os produtos que têm maior probabilidade de comprar.

Com o Hadoop, as possibilidades são realmente ilimitadas.

O que o $ @! é hadoop?

Índice:

De onde veio o Hadoop?

Como o Hadoop funciona?

O que o Hadoop faz?

Escolha dos editores

Infográfico: dirigindo enquanto 'integrado'

Eu conheço você? redes sociais vs. descoberta social

O que é preciso para construir uma carreira na sap como consultor técnico

Infográfico: a revolução voip global

Escolha dos editores

O que é uma chave de licença? - o que é techopedia

O que é serviço sem conexão? - o que é techopedia

Quais são os critérios confiáveis de avaliação de sistemas de computadores (tcsec)? - o que é techopedia

O que é um serviço orientado a conexão? - o que é techopedia

Escolha dos editores

O que é a segunda geração sem fio (2g)? - o que é techopedia

O que é interferência eletromagnética (emi)? - o que é techopedia

O que é 1000base-t? - o que é techopedia

Qual é o tempo de espera? - o que é techopedia

Escolha dos editores

O que é o servidor virtual da microsoft? - o que é techopedia

O que é físico para virtual (p2v)? - o que é techopedia

O que é paravirtualização? - o que é techopedia

O que é virtual para físico (v2p)? - o que é techopedia

Escolha dos editores

O que é um sistema de resposta de voz (vrs)? - o que é techopedia

Qual é a linguagem de marcação de serviços financeiros (fsml)? - o que é techopedia

O que é uma máquina de replicação automática? - o que é techopedia

O que é um guia de ondas? - o que é techopedia

Categorias populares