Entre as startups de tecnologia, cientista de dados é um termo cada vez mais comum usado para se referir a geeks de dados capazes de conectar áreas funcionais tradicionais de inteligência de dados. Um cientista de dados é alguém que se sente confortável em executar vários (se não todos) aspectos de projetos de inteligência de dados:
- Aquisição de dados: isso pode implicar na criação de analisadores personalizados e rastreadores da Web ou scripts direcionados a serviços da Web ou APIs específicos para fontes de dados não tradicionais.
- Gerenciamento de dados: ETL, manipule, consulte e mantenha dados em bancos de dados, armazenamentos de valores-chave ou Hadoop.
- Visualização de informações: descoberta de padrões através do uso de kits de ferramentas de visualização estática e / ou plataformas interativas baseadas em Flash, JavaScript ou Processamento.
- Análise: isso pode variar de simples a técnicas complexas em estatística multivariada, aprendizado de máquina e PNL.
- Informações: extraia, resuma e apresente as principais conclusões para um público amplo.
Existem muitas ferramentas, habilidades e detalhes técnicos, e pode-se passar anos dominando cada um dos itens listados acima. Embora um cientista de dados possa não possuir um conhecimento especializado verdadeiro em qualquer uma das áreas, ele ou ela se sente confortável pulando para frente e para trás e executando tarefas básicas em todas elas. O resultado é um geek de dados ágil o suficiente para investigar rapidamente um projeto de dados e produzir respostas para questões de alto nível da gerência. (sobre cientistas de dados em Data Scientists: As Novas Estrelas do Rock do Mundo da Tecnologia.)
Para nutrir os cientistas de dados, as empresas precisam se concentrar mais na cultura e na estrutura organizacional. Muitos profissionais de dados têm habilidades e treinamento suficientes para se tornarem produtivos rapidamente em várias áreas da inteligência de dados. O problema é que a maioria não trabalha em ambientes que os incentivem a se tornarem cientistas de dados. Eles estão presos em silos e limitados a uma ou duas áreas de inteligência de dados. Freqüentemente, eles estão restritos a usar ferramentas "aprovadas" por seus gerentes.