Lar Áudio Como o sql no hadoop ajuda na análise de big data?

Como o sql no hadoop ajuda na análise de big data?

Índice:

Anonim

O SQL no Hadoop é um grupo de ferramentas de aplicativos analíticos que combinam a consulta e o processamento de dados no estilo SQL com os elementos mais recentes da estrutura de dados do Hadoop. O surgimento do SQL no Hadoop é um desenvolvimento importante para o processamento de big data, pois permite que grupos maiores de pessoas trabalhem com êxito com a estrutura de processamento de dados do Hadoop executando consultas SQL nos enormes volumes de big data que o Hadoop processa. Obviamente, a estrutura do Hadoop anteriormente não era tão acessível para as pessoas, especialmente em termos de seus recursos de consulta. Com base no desenvolvimento, várias ferramentas estão sendo trabalhadas que prometem melhorar a produtividade das empresas quando se trata de processar e analisar big data com qualidade e velocidade. Também não há necessidade de investir muito no aprendizado da ferramenta, como o conhecimento tradicional de SQL deve fazer.

Definição de SQL no Hadoop

O SQL no Hadoop é um grupo de aplicativos que permite executar consultas no estilo SQL em big data hospedadas pela estrutura de processamento de dados do Hadoop. Obviamente, a consulta, recuperação e análise de dados se tornaram mais fáceis com a adição do SQL no Hadoop. Como o SQL foi originalmente projetado para bancos de dados relacionais, ele teve que ser modificado de acordo com o modelo Hadoop 1, que inclui o MapReduce e o Hadoop Distributed File System (HDFS), e o modelo Hadoop 2, que não possui MapReduce e HDFS.

Um dos primeiros esforços para combinar SQL com Hadoop resultou na criação do armazém de dados Hive com o software HiveQL, que poderia converter consultas no estilo SQL em tarefas MapReduce. Depois disso, foram desenvolvidas várias aplicações que poderiam fazer trabalhos semelhantes. Entre as ferramentas mais recentes, destacam-se Drill, BigSQL, HAWQ, Impala, Hadapt, Stinger, H-SQL, Splice Machine, Presto, PolyBase, Spark, JethroData, Shark (Hive no Spark) e Tez (Hive no Tez).

Como o sql no hadoop ajuda na análise de big data?