Lar Áudio Análise do Hadoop: não é tão fácil em várias fontes de dados

Análise do Hadoop: não é tão fácil em várias fontes de dados

Índice:

Anonim

O Hadoop é um ótimo local para descarregar dados para processamento analítico ou modelar volumes maiores de uma única fonte de dados que não são possíveis nos sistemas existentes. No entanto, como as empresas trazem dados de várias fontes para o Hadoop, há uma demanda crescente pela análise de dados em diferentes fontes, o que pode ser extremamente difícil de alcançar. Esta postagem é a primeira de uma série de três partes que explica os problemas que as organizações enfrentam, enquanto tentam analisar diferentes fontes e tipos de dados no Hadoop e como resolver esses desafios. A publicação de hoje enfoca os problemas que ocorrem ao combinar várias fontes internas. As próximas duas postagens explicam por que esses problemas aumentam em complexidade, à medida que fontes de dados externas são adicionadas e como novas abordagens ajudam a resolvê-las.

Dados de diferentes fontes difíceis de conectar e mapear

Dados de diversas fontes têm estruturas diferentes que dificultam a conexão e o mapeamento de tipos de dados, inclusive dados de fontes internas. A combinação de dados pode ser especialmente difícil se os clientes tiverem vários números de conta ou se uma organização tiver adquirido ou mesclado com outras empresas. Nos últimos anos, algumas organizações tentaram usar aplicativos de descoberta de dados ou ciência de dados para analisar dados de várias fontes armazenadas no Hadoop. Essa abordagem é problemática porque envolve muitas suposições: os usuários precisam decidir quais chaves estrangeiras usar para conectar várias fontes de dados e fazer suposições ao criar sobreposições de modelo de dados. Essas suposições são difíceis de testar e geralmente incorretas quando aplicadas em escala, o que leva à análise de dados com falha e desconfiança das fontes.

Especialistas do Hadoop tentam mesclar dados juntos

Portanto, as organizações que desejam analisar dados nas fontes de dados recorreram à contratação de especialistas do Hadoop para criar scripts personalizados específicos da fonte para mesclar conjuntos de dados. Esses especialistas do Hadoop geralmente não são especialistas em integração de dados ou resolução de entidades, mas fazem o melhor possível para atender às necessidades imediatas da organização. Esses especialistas geralmente usam Pig ou Java para escrever regras rígidas e rápidas que determinam como combinar dados estruturados de fontes específicas, por exemplo, registros correspondentes com base em um número de conta. Depois que um script para duas fontes for gravado, se uma terceira fonte precisar ser adicionada, o primeiro script deverá ser descartado e um novo script projetado para combinar três fontes específicas. O mesmo acontece se outra fonte for adicionada e assim por diante. Essa abordagem não é apenas ineficiente, mas também falha quando aplicada em escala, lida mal com casos extremos, pode resultar em um grande número de registros duplicados e geralmente mescla muitos registros que não devem ser combinados.

Análise do Hadoop: não é tão fácil em várias fontes de dados