Lar Áudio O que é hadoop exatamente? teoria de um cínico

O que é hadoop exatamente? teoria de um cínico

Índice:

Anonim

Qualquer coisa que pareça boa demais para ser verdade geralmente é. Esse pode ser o caso do Apache Hadoop, o projeto de código aberto muito criticado que todo mundo continua falando. Então, o que exatamente é isso? Boa pergunta!

Especialistas Duvidosos

O analista Mark Madsen, da Third Nature, pregou-o na parede há algum tempo em uma peça concisa no InsideAnalysis.com: "O que é o Hadoop. O que o Hadoop não é". Como alguém que sabe como projetar soluções do mundo real e depois implantá-las, seu conselho não deve ser ignorado.


Mas há uma corrente mais profunda fluindo aqui, e é chegado o momento de descobrir as raízes dessa flora fascinante, para ver se não podemos ter uma perspectiva do que está acontecendo em um nível mais macro. Afinal, os fornecedores continuam dizendo que é um grande negócio, e há tantos participantes.

Empregue os Committers! (?)

Atualmente, três empresas possuem a maioria do mercado nascente do Hadoop: Cloudera, Hortonworks e MapR. Em um briefing recente e bastante contencioso via Boulder BI Brain Trust (#BBBT), Jim Walker, da Hortonworks, fez este curioso comentário:


"Você não pode avançar na tecnologia se não empregar os colaboradores!"


Volte novamente?


Isso não soa como algo que o senador Palpatine poderia dizer em um filme de Guerra nas Estrelas?


Senador Palpatine: "Empregue os comissários!"

Lacaio próximo: "Mas, mas, senhor! Pense nas crianças!"


Para os leigos por aí que estão apenas tentando fazer as coisas, os comprometedores são pessoas que se dedicam a um projeto de código aberto específico. A Apache Foundation possui protocolos rígidos pelos quais seus projetos avançam, o que geralmente é uma coisa boa.


Dito isto, o comentário de Walker merece exame. Uma questão apontada (com o risco de conjurar dias de recreio) seria: Isso é uma promessa ou uma ameaça? Ele está dizendo que a Hortonworks pode pegar a bola e ir para casa?

Cooperação ou competição?

O ângulo interessante, embora paradoxal aqui, é que, segundo relatos, a maioria dos colaboradores da equipe do Hadoop (cerca de 30 no total) são de Hortonworks e Cloudera - que são concorrentes. Este é um caso muito curioso de competição.


Então, qual é o problema? Aqui está um palpite: o Hadoop deve sua fama a um plano inteligente concebido por um grupo de capitalistas e engenheiros de risco do Vale do Silício, que estão essencialmente tentando proteger suas apostas contra a Oracle.


A idéia geral é propagar o mercado com uma base de código que pode ser aprimorada e reforçada por uma frota de desenvolvedores que, idealmente, ao longo do tempo, criarão todo tipo de ferramentas de gerenciamento de dados, incluindo produtos de banco de dados. Os VCs podem investir e sacar algum dia. Mas existem alguns desafios sérios em jogo.


Como todas as empresas monolíticas, a Oracle geralmente se encontra na mira de muitos players menores. E quem não gostaria apenas de uma fatia de sua receita entorpecente? Somente no último trimestre, a Oracle registrou ~ US $ 9 bilhões. Mas desafiar o Big Red e derrotá-los são duas realidades muito diferentes.

Webcast gratuito: O que é o Hadoop e para onde está indo?

Junte-se a Eric Kavanagh, Robin Bloor e Techopedia para uma discussão sobre como o Hadoop é muito diferente do Linux ou SOA e por que seu futuro permanece em grande parte não escrito.

Problemas de embalagem

O problema do Hadoop, por si só, é que não é uma solução empacotada de forma alguma. Em vez disso, é uma coleção complexa de módulos que permite que programadores de alta qualidade utilizem algoritmos de processamento paralelo maciço para fazer coisas muito específicas. Mas não há interface de usuário sofisticada, e os manuais são brutais.


Acrescente a esse desafio esse obstáculo crítico: você também precisa de pessoas de negócios que tenham pelo menos uma compreensão geral do que ele pode fazer. Essas pessoas devem ser capazes de conjurar idéias de como podem ser usadas e depois se comunicar com os desenvolvedores, que devem subsequentemente produzir, testar, implementar e dar suporte a aplicativos.


Orquestrar essa dança é como Cloudera e Hortonworks ganham muito dinheiro. O problema é que a maioria das soluções criadas por esse método é exclusiva e geralmente se concentra nos sistemas operacionais, em vez dos analíticos. Tradução? Coisas assim realmente não se prestam a produtos de software empacotados.

Rentabilidade da embalagem!

O que nos leva de volta ao Oracle. Larry Ellison e os meninos fazem o seu feno vendendo tecnologia de banco de dados, hardware, serviços e (espere por isso …) software em pacote. Cloudera aparentemente entendeu isso, daí o foco deles na Impala. Mas Hortonworks?


O modelo deles parece imitar mais de perto o do RedHat, o pessoal que construiu um negócio de bilhões de dólares sobre o sistema operacional Linux. Nem um grande fornecedor no setor de software corporativo não escreve para Linux, o sistema operacional pelo qual a IBM encabeçou a Microsoft. Mas o Hadoop não é Linux, nem por um longo tempo.


Geoffrey Malafsky, um ex-nanotecnólogo da Marinha dos EUA, agora cientista de dados da Phasic Systems e do Instituto PSIKORS, destila a proposta de valor do Hadoop assim:

    "O Hadoop é ótimo para pesquisa, análise de tendências muito grande para resultados estocásticos e provavelmente algum processamento paralelo inteligente e muito barato de coisas como minha ex-esposa costumava fazer: cálculo da função de ondas mecânicas quânticas de reações químicas e de estado sólido e de estado sólido. em supercomputadores e mudou-se um pouco para o processamento paralelo, mas é uma mudança difícil na abordagem da programação.Estudantes jovens, inteligentes e energéticos serão os únicos a fazer isso acontecer.Eu suspeito que as bolsas de pesquisa comecem a seguir nessa direção para alguns computadores computacionais de alta potência formulários."

Você notará que isso não soa nada como armazenamento de dados, inteligência comercial, integração de dados ou mesmo big data. Parece supercomputador. E por alguma razão interessante, os mundos da computação de alto desempenho e da inteligência de negócios nunca realmente colidiram ou se fundiram de maneira significativa.

Longo caminho a seguir para Hortonworks e Cloudera

E aqui estão as más notícias para a Hortonworks e possivelmente para a Cloudera. Os grandes fornecedores como IBM e SAP e Oracle e Teradata - para dizer o mínimo, e para citar Dire Straits: "Eles não são burros!" Há três anos, todos eles lançaram estratégias sérias do Hadoop.


No centro desses planos estão os tipos de coisas que os usuários esperam: interfaces gráficas, funcionalidade de arrastar e soltar, ferramentas de modelagem e descoberta, fluxo de trabalho, governança, segurança; em resumo, todos os fragmentos que tornam o software corporativo utilizável. E, é claro, esses grandes fornecedores têm bases de instalação massivas.


Para ter certeza, Cloudera e Hortonworks conseguiram bons negócios, mas apenas uma pequena fração do que esses grandes players obtêm a cada ano. Faça as contas sobre o quanto os concorrentes cobram de seus clientes, em comparação com a probabilidade de sobrecarga e a imagem não é tão positiva. Concedido, isso é par para o curso com preocupações de software em estágio inicial, mas ainda assim …

O futuro do Hadoop?

Então, poderíamos ver a onda clássica de aquisições, como tínhamos nos primórdios, quando a IBM comprou a Cognos, a Oracle adquiriu a Hyperion e a SAP capturou o BusinessObjects? Talvez, mas os novos garotos neste quarteirão não são donos do Hadoop; eles apenas pegam emprestado. E por mais promissores que YARN e Tez possam ser, os ciclos de lançamento parecem estar atrasados ​​em relação ao que os rebatedores pesados ​​produzem.


Outro dia, um membro da indústria comentou que a política da Apache pode ser um gargalo sério. Isso não é muito surpreendente, especialmente quando você considera os dólares envolvidos - há uma grande motivação para os inovadores ficarem ricos. E alguém notou como o Chrome parece ter ultrapassado o Firefox em funcionalidade e operabilidade ultimamente? Código-fonte fechado, alguém?


Uma coisa é certa: este jogo se desenrola de algumas maneiras interessantes. Sim, os mamíferos (leia-se: pequenos vendedores) costumam superar os dinossauros; mas ainda existem jacarés e crocodilos em todo o mundo; e se você se deparar com alguém de surpresa, poderá descobrir como esses dentes podem ser afiados. Alguns crocs juntos podem até derrubar um elefante ou dois.

O que é hadoop exatamente? teoria de um cínico