Índice:
- Mito: Todos estão à nossa frente na adoção de big data.
- Mito: Temos muitos dados; não precisamos nos preocupar com cada pequena falha de dados.
- Mito: A tecnologia de big data eliminará a necessidade de integração de dados.
- Mito: Usar um data warehouse para análises avançadas não faz sentido.
- Mito: os lagos de dados substituirão o armazém de dados.
- Big Data Works - Novos métodos de manipulação de dados podem não
Em maio de 2014, a Forrester Research publicou dois relatórios tirando certas conclusões sobre o hype em torno do big data. A empresa de pesquisa entrevistou mais de 250 executivos de marketing e desenvolvimento de negócios. De acordo com os autores do relatório, a retórica do big data está em um nível histórico e os fornecedores de tecnologia estão divulgando produtos com o que parecem ser afirmações incríveis.
O Gartner concorda com a Forrester Research; hype substancial envolve grande volume de dados. No relatório de setembro de 2014, o Gartner desmascara cinco dos maiores mitos sobre dados, e os analistas do Gartner opinam sobre o que é incompreendido sobre o big data e sua manipulação. Então, quais são os maiores mitos do big data? Vamos dar uma olhada.
Mito: Todos estão à nossa frente na adoção de big data.
O Gartner diz que o interesse em big data está em alta histórica. Apesar disso, apenas 13% dos entrevistados têm sistemas de trabalho. O motivo: a maioria das empresas ainda precisa descobrir como extrair qualquer valor de grandes repositórios de dados. Aqui, a pesquisa do Gartner é mais otimista do que o relatório da Forrester, que descobriu que apenas 9% dos participantes da pesquisa disseram que planejavam implementar tecnologias de big data no próximo ano. (O big data tem muito a oferecer. Saiba mais em 5 problemas do mundo real que o big data pode resolver.)Mito: Temos muitos dados; não precisamos nos preocupar com cada pequena falha de dados.
O Gartner está preocupado com um problema que nós humanos temos: "Temos muito, o pouco que é ruim não importa". Ted Friedman, vice-presidente e destacado analista da Gartner acredita que esta é a maneira errada de encarar a situação.
"Na realidade, embora cada falha individual tenha um impacto muito menor em todo o conjunto de dados do que quando havia menos dados, há mais falhas do que antes porque há mais dados", disse Friedman. "Portanto, o impacto geral de dados de baixa qualidade em todo o conjunto de dados permanece o mesmo".
Friedman acrescenta outro motivo de preocupação. A captura de big data geralmente inclui dados de fora da empresa, o que é, portanto, de estrutura e origem desconhecidas. Isso aumenta o potencial de erros.
Mito: A tecnologia de big data eliminará a necessidade de integração de dados.
Existem duas estratégias principais de análise de dados que podem ser aplicadas ao big data: "esquema na gravação" ou "esquema na leitura". Até recentemente, o esquema na gravação era o único método usado. Esquema na leitura é a mania atual no gerenciamento de banco de dados. Diferentemente do esquema na gravação, que requer um formato estruturado, os dados são carregados nos bancos de dados do esquema na leitura em seu formato bruto. Em seguida, os desenvolvedores - usando plataformas não estruturadas de banco de dados como o Hadoop - dobram os dados diferentes em um formato utilizável. O esquema na leitura tem vantagens óbvias, mas, como o Gartner menciona, a integração de dados deve ocorrer em algum momento.Mito: Usar um data warehouse para análises avançadas não faz sentido.
Passar o tempo para criar um data warehouse parece inútil para muitos gerenciadores de informações, principalmente quando os dados recém-capturados são diferentes dos dados no data warehouse. No entanto, o Gartner alerta novamente que mesmo análises avançadas de dados usarão data warehouses e novos dados, o que significa que os integradores de dados devem:- Refine novos tipos de dados para torná-los adequados para análise
- Decida quais dados são relevantes e o nível de qualidade dos dados necessário
- Determinar como agregar os dados
- Entenda que o refinamento de dados pode ocorrer em outros locais que não o data warehouse
Mito: os lagos de dados substituirão o armazém de dados.
Os lagos de dados são repositórios de dados díspares, em oposição aos data warehouses em que os dados estão em um formato estruturado. A criação de um data lake exige pouco esforço inicial (não é necessário formatar os dados) em comparação com os data warehouses, e é por isso que os lagos de dados são interessantes.
O Gartner enfatiza que ter os dados não é o ponto - ser capaz de manipular os dados capturados para uma tomada de decisão informada é o ponto. Além disso, o uso de lagos de dados (um tanto não comprovados) para facilitar a tomada de decisões é problemático.
"Os data warehouses já têm os recursos para dar suporte a uma ampla variedade de usuários em toda a organização", disse Nick Heudecker, diretor de pesquisa da Gartner. "Os líderes em gerenciamento de informações não precisam esperar que os lagos de dados alcancem". (Saiba mais sobre a adoção de big data em 7 coisas que você deve saber sobre big data antes da adoção.)
Big Data Works - Novos métodos de manipulação de dados podem não
A razão pela qual o Gartner disse que "maiores mitos sobre dados" em vez de "grandes mitos sobre dados" fica clara após a leitura do relatório. O Gartner não desconfia do big data. O Gartner desconfia de quem acha que os métodos mais novos de manipulação de big data estão prontos para o "horário nobre".