Lar Áudio Como a raspagem de dados para aprendizado de máquina se tornou o gargalo mais trabalhoso desde a entrada manual de dados na migração herdada?

Como a raspagem de dados para aprendizado de máquina se tornou o gargalo mais trabalhoso desde a entrada manual de dados na migração herdada?

Anonim

Q:

Como a raspagem de dados para aprendizado de máquina se tornou o gargalo mais trabalhoso desde a entrada manual de dados na migração herdada?

UMA:

Um dos problemas práticos que as empresas podem encontrar ao tentar iniciar um projeto de aprendizado de máquina (ML) é o desafio de adquirir os conjuntos de dados de treinamento iniciais. Isso pode incluir processos de trabalho intensivo, como raspagem da Web ou outra raspagem de dados.

Os termos raspagem na web e raspagem de dados referem-se em grande parte a atividades automatizadas por software de computador, mas para muitos projetos de ML, haverá casos em que os computadores não têm a sofisticação necessária para coletar os dados direcionados corretos, portanto, isso deve ser feito "à mão." Você pode chamar isso de "raspagem de dados / web humana" e é um trabalho ingrato. Geralmente envolve sair e procurar dados ou imagens para "alimentar" o programa de ML através de conjuntos de treinamento. Muitas vezes, é bastante iterativo, o que o torna um trabalho tedioso, lento e exigente.

Download grátis: Machine Learning e por que é importante

A coleta de dados para conjuntos de treinamento de ML representa um gargalo excepcionalmente problemático no aprendizado de máquina, em parte porque grande parte do outro trabalho é altamente conceitual e não repetitivo. Muitas pessoas podem ter uma ótima idéia para um novo aplicativo que executa tarefas de aprendizado de máquina, mas as porcas e parafusos e o trabalho prático podem ser muito mais difíceis. Em particular, delegar o trabalho de montagem dos conjuntos de treinamento pode realmente ser uma das partes mais difíceis de um projeto de ML, como completamente explorado no programa de TV "Mike Valley", "Silicon Valley". Em um episódio da quarta temporada, um empreendedor iniciante intimida um parceiro a fazer o trabalho intensivo em trabalho, depois tenta repassá-lo aos estudantes universitários, disfarçando-o como tarefa de casa.

Este exemplo é instrutivo, pois mostra o quão desagradável e aparentemente sem importância a raspagem manual de dados é. No entanto, também mostra que esse processo é necessário para uma ampla variedade de produtos de aprendizado de máquina. Embora a maioria das pessoas odeie a entrada de dados, os conjuntos de treinamento precisam ser montados de alguma maneira. Especialistas no processo geralmente recomendam o uso de um serviço de raspagem da Web - essencialmente apenas terceirizando esse trabalho muito trabalhoso para terceiros, mas isso pode ter implicações de segurança e causar outros problemas. Ao manter internamente a coleta manual de dados, é necessário prever o que geralmente é um processo muito manual e demorado.

De certa forma, a "raspagem de dados humanos" para aprendizado de máquina se parece com a entrada manual de dados que às vezes precisava ser feita na migração herdada. À medida que a nuvem se tornou cada vez mais popular, e as empresas colocaram seus processos e fluxos de trabalho na nuvem, algumas descobriram que não haviam trabalhado nos aspectos práticos de como obter seus dados corporativos de um sistema legado isolado em aplicativos nativos da nuvem. Como resultado, algumas pessoas que eram cientistas de dados ou pessoas criativas com habilidades essenciais de TI se viram realizando tarefas desagradáveis ​​de entrada de dados.

É provável que o mesmo ocorra com o aprendizado de máquina. Você pode ouvir um cientista de dados reclamando que "sou uma pessoa criativa" ou "estou do lado do desenvolvimento" - mas alguém tem que fazer o trabalho sujo.

Novamente, se o fluxo do criativo não corresponder a uma avaliação prática da delegação do fluxo de trabalho, haverá uma incompatibilidade na maneira como o tratamento da tarefa é direcionado. Quando uma empresa não tem pessoas para fazer o trabalho de coleta de dados na coleta de conjuntos de dados, falta uma parte essencial da cadeia de procedimentos para um projeto bem-sucedido. Vale a pena lembrar disso sempre que uma empresa tenta concretizar uma idéia baseada no desenvolvimento de novos aplicativos de aprendizado de máquina.

Como a raspagem de dados para aprendizado de máquina se tornou o gargalo mais trabalhoso desde a entrada manual de dados na migração herdada?