Q:
Por que alguns projetos de aprendizado de máquina exigem um número enorme de atores?
UMA:Quando você pensa em aprendizado de máquina, costuma pensar em cientistas de dados qualificados trabalhando em teclados em salas de computadores. Há uma ênfase extrema na análise quantitativa e algoritmos. Não há muito contexto imediato do mundo real em muitos desses programas - pelo menos, é o que muitos pensariam.
No entanto, alguns dos programas de aprendizado de máquina mais inovadores da atualidade estão fazendo uso de verdadeiros exércitos de atores humanos nas ruas, nas lojas e em qualquer lugar onde eles possam modelar atividades humanas básicas, como caminhar, trabalhar ou fazer compras.
Download grátis: Machine Learning e por que é importante |
Um artigo da Wired de Tom Simonite ilustra isso muito bem com o título apt "Para tornar a inteligência artificial mais inteligente, os seres humanos realizam tarefas mal pagas e estranhas".
Usando o exemplo de vídeos curtos tirados em uma mercearia da Whole Foods, Simonite destaca os tipos de trabalho que ajudarão a construir parte da próxima fase do aprendizado de máquina.
Isso leva à questão de por que todas essas pessoas estão envolvidas em filmagens em vídeos curtos e simples, documentando ações tão rudimentares quanto mover um braço ou perna.
A resposta lança alguma luz sobre onde está o aprendizado de máquina e para onde está indo.
“Pesquisadores e empresários querem ver a IA entendendo e agindo no mundo físico”, escreve Simonite, explicando por que ele e outros estão circulando com câmeras. “Daí a necessidade de os trabalhadores encenarem cenas em supermercados e residências. Eles estão gerando o material instrucional para ensinar algoritmos sobre o mundo e as pessoas nele. ”
Como muitos especialistas apontam, algumas das maiores fronteiras do aprendizado de máquina envolvem processamento de imagem e processamento de linguagem natural. Esses são procedimentos extremamente quantitativos - em outras palavras, não há um amplo espectro de entradas, como em ambientes do mundo real com "desempenho". Em vez disso, os programas de aprendizado de máquina estão usando dados visuais e de áudio de maneiras muito específicas para criar modelos. Com o processamento de imagens, ele seleciona recursos de um campo de visão (finito). Para a PNL, está montando fonemas.
Indo além dessas categorias específicas de entrada envolve algo que você poderia chamar de "imagem e fala" - além de processamento de imagem e reconhecimento de fala, você está se mudando para áreas em que os computadores precisam ser analíticos de maneiras diferentes. Os conjuntos de treinamento serão fundamentalmente diferentes.
Entre no exército de videomakers. Em alguns desses novos projetos de aprendizado de máquina, as menores idéias de atividades humanas são os conjuntos de treinamento. Em vez de serem treinados para procurar por recursos, arestas e pixels que compõem as tarefas de classificação, os computadores estão usando vídeos de treinamento para avaliar como são os diferentes tipos de ação.
O principal é o que os engenheiros podem fazer com esses dados quando eles são agregados e carregados e quando o computador é treinado nele. Em breve, você verá os resultados em vários campos - por exemplo, isso tornará a vigilância extremamente eficaz. Os computadores poderão "ver" no campo visual o que as pessoas estão fazendo e aplicá-lo a campos como marketing e vendas, ou talvez, em alguns casos, trabalhos de agências governamentais ou justiça criminal.
As ramificações também colocam alguma luz no debate entre o benefício máximo e as questões de privacidade. Grande parte do uso desses vídeos criará modelos de aprendizado de máquina que funcionam para vigilância - mas e as pessoas que não querem ser vigiadas? Quando esses novos programas de aprendizado de máquina são implantados no espaço público, quais são os direitos do indivíduo e onde é traçada essa linha?
De qualquer forma, as empresas estão usando esses tipos de recursos humanos e de vídeo para realmente avançar em algumas etapas de progresso de aprendizado de máquina que realmente permitirão que os computadores reconheçam o que está acontecendo ao seu redor, em vez de apenas classificar imagens ou trabalhar com os fonemas de discurso. Este é um desenvolvimento extremamente interessante e controverso em inteligência artificial e que merece sua parcela de atenção na mídia tecnológica e além.