Q:
Quais são algumas das principais maneiras de automatizar e otimizar os processos de ciência de dados?
UMA:Os processos de ciência de dados no contexto de aprendizado de máquina e IA podem ser divididos em quatro fases distintas:
- aquisição e exploração de dados,
- construção modelo
- implantação de modelo e
- avaliação e refinamento online.
Pela minha experiência, as fases mais impeditivas são as fases de aquisição de dados e implantação de modelo em qualquer processo de ciência de dados baseado em aprendizado de máquina, e aqui estão duas maneiras de otimizá-las:
1. Estabeleça um armazenamento de dados altamente acessível.
Na maioria das organizações, os dados não são armazenados em um local central. Vamos apenas pegar as informações relacionadas aos clientes. Você tem informações de contato do cliente, e-mails de suporte ao cliente, feedback e histórico de navegação do cliente, se sua empresa for um aplicativo da web. Todos esses dados são naturalmente dispersos, pois servem a propósitos diferentes. Eles podem residir em bancos de dados diferentes e alguns podem ser totalmente estruturados e outros não estruturados, e podem até ser armazenados como arquivos de texto sem formatação.
Infelizmente, a dispersão desses conjuntos de dados é altamente limitadora para o trabalho em ciência de dados, pois a base de todos os problemas de PNL, aprendizado de máquina e IA é de dados . Portanto, ter todos esses dados em um só lugar - o armazenamento de dados - é fundamental para acelerar o desenvolvimento e a implantação do modelo. Como essa é uma peça crucial para todos os processos de ciência de dados, as organizações devem contratar engenheiros de dados qualificados para ajudá-los a construir seus datastores. Isso pode facilmente começar quando dados simples são despejados em um local e crescem lentamente em um repositório de dados bem pensado, totalmente documentado e passível de consulta com ferramentas utilitárias para exportar subconjuntos de dados em diferentes formatos para diferentes finalidades.
2. Exponha seus modelos como um serviço para uma integração perfeita.
Além de permitir o acesso aos dados, também é importante poder integrar os modelos desenvolvidos pelos cientistas de dados ao produto. Pode ser extremamente difícil integrar modelos desenvolvidos em Python a um aplicativo da Web que roda em Ruby. Além disso, os modelos podem ter muitas dependências de dados que seu produto pode não ser capaz de fornecer.
Uma maneira de lidar com isso é configurar uma infra-estrutura sólida em torno do seu modelo e expor a funcionalidade necessária apenas para o seu produto, a fim de usá-lo como um "serviço da web". Por exemplo, se o seu aplicativo precisar de classificação de opinião nas análises de produtos, tudo o que precisa fazer é chamar o serviço da Web, fornecendo o texto relevante e o serviço devolva a classificação de sentimento apropriada que o produto pode usar diretamente. Dessa forma, a integração é simplesmente na forma de uma chamada de API. A dissociação do modelo e do produto que o utiliza torna muito fácil para os novos produtos criados por você também usar esses modelos com pouca dificuldade.
Agora, a configuração da infraestrutura em torno do seu modelo é outra história e requer um investimento inicial pesado de suas equipes de engenharia. Uma vez que a infraestrutura está lá, é apenas uma questão de criar modelos de uma maneira que se encaixe na infraestrutura.