Q:
Qual é a diferença entre fala em texto e chatbots?
UMA:As numerosas diferenças significativas entre tecnologias de fala para texto e chatbots fazem parte do que está sendo examinado na rápida evolução dos projetos de chatbot e voicebot.
Uma tecnologia de fala para texto é simplesmente uma que converte fala verbal em texto em uma página digital. Essa é sua função completa, mas não é simples de projetar. Para converter a fala verbal em texto, a tecnologia precisa dividir palavras e frases em fonemas individuais e trabalhar com eles de acordo com algoritmos complexos para criar texto que seja preciso e represente o que o falante disse.
Os chatbots, por outro lado, são tecnologias que atingem o objetivo de se comunicar com um ser humano. Existem dois tipos de chatbots: chatbots de texto e voicebots. Os chatbots de texto existem há muito tempo, porque não precisam do elemento de fala para texto que os bots de voz utilizam.
A principal diferença entre tecnologias de fala para texto e chatbots é o escopo. Como mencionado, toda a tecnologia de fala para texto precisa transcrever a fala verbal. O chatbot, por outro lado, precisa discursar da forma que for criado, entendê-lo e fornecer respostas que busquem passar no teste de Turing - o teste de se uma tecnologia pode enganar um ser humano para pensar que ele é ou não falando com outra pessoa.
Com isso em mente, os chatbots são muito mais fáceis de criar do que os serviços de voz. O chatbot recebe o texto do ser humano e fornece uma resposta de texto. Mesmo os chatbots relativamente simples têm sido capazes de fornecer resultados interessantes e agradáveis para os seres humanos desde o final dos anos 80 e o começo dos anos 90.
O robô de voz, por outro lado, precisa captar a fala verbal, convertê-la em texto, verificar a precisão, produzir uma resposta e criar essa resposta da linguagem de máquina na fala audível. Esse grande número de tarefas razoavelmente significativas significa que o voicebot exige muito poder de computação e muito design para criar.
Projetos como Siri, Cortana e Alexa demonstram parte da vanguarda das tecnologias de voz. Eles também ilustram que essa tecnologia ainda está em sua infância. Embora o Alexa e outras tecnologias possam responder verbalmente à fala humana, elas não são extremamente capazes no sentido que associamos à fala humana verbal em geral. Em outras palavras, há algumas limitações nas respostas que essas tecnologias podem fornecer. Existe até uma capacidade limitada da geração atual de assistentes pessoais de realmente gerar fala em texto, por exemplo, com a finalidade de transcrever um email ou ajudar alguém a escrever uma redação sem usar as mãos. Alguns dos programas específicos de fala para texto no mercado fazem isso melhor do que a Siri ou Cortana, provavelmente devido à alocação de recursos. No entanto, há sinais de que o progresso do voicebot logo decolará - como a plataforma Lex da Amazon, que permite um ambiente de estúdio para a construção desses tipos de tecnologias.
Em um ensaio inteligente e instrutivo sobre o assunto, Tobias Goebel fala sobre a diferença entre essas tecnologias, contrastando o processo de "transcrição", que fala ao texto faz, ao trabalho de entendimento, que os chatbots devem fazer.
“Embora a eliminação da necessidade de reconhecimento de fala facilite as coisas para um chatbot, o principal desafio para criar bots funcionais está no entendimento da linguagem natural”, escreve Goebel.
Goebel também identifica muitos dos participantes atuais do setor:
A líder de mercado em reconhecimento de fala é a Nuance, que está por trás de sistemas conhecidos como o Dragon NaturallySpeaking para ditar em um PC, que existe desde os anos 90, mas também o Siri: a tarefa de reconhecimento / transcrição de fala realizada na nuvem da Apple usa Tecnologia Nuance nos bastidores. Outros são LumenVox, Verbio ou Interactions, mas agora o reconhecimento de fala também é oferecido como um serviço em nuvem via APIs de empresas como Amazon, Google, Microsoft e IBM.
À medida que os chatbots se desenvolvem, é assumido que o entendimento deles continuará a aumentar em alguma trajetória - e também é amplamente assumido que mais tecnologia bot passará de interfaces de texto para interfaces verbais, exigindo quantidades adicionais de poder de computação.