O ETL (extrair, transformar e carregar) é um dos processos mais importantes na análise de big data - e, simultaneamente, pode ser um de seus maiores gargalos. (Para saber mais sobre big data, confira 5 cursos úteis sobre big data que você pode fazer on-line.)
A razão pela qual a ETL é tão importante é que a maioria dos dados que uma empresa coleta não está pronta, em sua forma bruta, para uma solução de análise. Para que uma solução de análise crie insights, os dados brutos precisam ser extraídos do aplicativo em que residem atualmente, transformados em um formato que um programa de análise possa ler e depois carregado no próprio programa de análise.
Este processo é análogo ao cozimento. Seus ingredientes crus são seus dados brutos. Eles precisam ser extraídos (comprados em uma loja), transformados (cozidos) e depois carregados (galvanizados), antes de serem analisados (provados). A dificuldade e as despesas podem aumentar de maneira imprevisível - é fácil fazer macarrão com queijo, mas é muito mais difícil criar um menu gourmet para 40 pessoas em um jantar. Escusado será dizer que um erro a qualquer momento pode tornar sua refeição indigesta.