Índice:
A genômica clínica é um assunto fascinante, onde as pessoas estão trabalhando em tecnologias de ponta para processar resultados rápidos e precisos. Existem muitos seqüenciadores de genoma disponíveis no mercado, e eles estão produzindo petabytes de dados de sequência, e o crescimento no seqüenciamento produzirá exabytes de dados em um futuro próximo. Aqui, o Hadoop é a plataforma perfeita para processar fluxos de trabalho genômicos complexos. O Hadoop pode armazenar e classificar grandes quantidades de informações e também pode renderizar análises significativas. (Para ter uma idéia da quantidade de dados realmente necessária, leia Noções básicas sobre bits, bytes e seus múltiplos.)
O Presente e o Futuro da Genômica
Hoje, o mapeamento do genoma atingiu seu pico de desenvolvimento. Muitas pessoas associadas à indústria da genômica estão cheias de curiosidade e, à medida que novas oportunidades se apresentam, melhor tecnologia é a necessidade da hora. O sequenciamento do genoma é uma tarefa muito repetitiva e que consome muitos recursos. Somente em 2013, foram produzidos cerca de 15 petabytes de dados, e apenas por 2.000 sequenciadores. Essa quantidade de cair o queixo incluía 300 KB de dados do genoma humano sequenciado. Nesse ritmo de produção de dados, pode-se estimar que, em 2018, serão produzidos cerca de um exabyte de dados. Isso ocorrerá devido ao crescimento de sequenciadores, que produzirão mais e mais dados por execução. Outro motivo é o advento de máquinas de sequenciamento de genoma extremamente poderosas e de baixo custo. Desde 2008, o preço dessas máquinas vem diminuindo constantemente. Isso ocorre devido às poderosas máquinas da próxima geração que invadiram o mercado.
As necessidades da indústria de mapeamento de genoma
Algoritmos complexos são usados para processar os dados que são coletados do genoma humano. Então, essas informações precisam ser armazenadas. Pode ser revisado no futuro para comparação com os dados originais. A tarefa de processar e armazenar 100 GB de dados não é muito difícil, especialmente quando você faz isso com as poderosas máquinas empregadas nos centros de seqüenciamento. Estudos mostram que essa quantidade de dados pode ser processada em apenas 1.000 horas de CPU, portanto é muito fácil. Nesse ritmo de avanço técnico, é aparente que a indústria do genoma em breve processará milhares de gigabytes em apenas alguns segundos.