Eu ouço pessoas mortas? tecnologia de linguagem natural faz com que vozes passadas e presentes ganhem vida

2026

Índice:

Grandes mudanças na PNL
Emocionantes criações "Text to Voice" na VivoText
Voz Artificial em Marketing
Sua voz vive
No ano 2525

Hoje em dia, a maioria das vozes de computadores são passadas. Você provavelmente não fica muito empolgado com cyborgs e robôs quando ouve o "dróide" no seu telefone, ajudando-o com o pagamento de uma conta ou perguntando qual departamento você deseja. Mas e se você de repente ouviu Kurt Cobain cutucando você para obter informações sobre o cartão? Ou John F. Kennedy falando sobre as maravilhas da votação antecipada? Ou Elvis anotando seu nome e endereço antes de entrar em "um pedaço, um pedaço de amor ardente?"

Tudo isso seria … meio estranho, mas o mais fascinante é que a tecnologia já está aqui. Há apenas uma década, ficamos impressionados com a capacidade de um computador sequer falar. Agora, estamos prestes a ser ouvidos por vozes livres, geradas por computador, que soam como as pessoas que conhecemos.

Grandes mudanças na PNL

Se você está prestando atenção ao campo do processamento de linguagem natural (PNL), pode ter ouvido falar de alguns avanços recentes que vão além dos tipos de vozes de assistente virtual enlatadas que agora ouvimos em nossos sistemas de posicionamento global (GPS) e negócios automatizados linhas telefônicas.

O início da PNL exigiu muita pesquisa sobre a mecânica geral da fala humana. Pesquisadores e engenheiros tiveram que identificar a fonética individual, dobrá-las em algoritmos maiores para gerar frases e sentenças e, em seguida, tentar gerenciar tudo isso em um nível meta para gerar algo que soasse real. Com o tempo, os líderes da PNL dominaram isso e começaram a criar algoritmos avançados para entender o que os humanos dizem. Juntando esses dois, as empresas criaram os drivers para os assistentes virtuais de hoje e funcionários de pagamento de contas totalmente digitais, cujos maneirismos - embora irritantes - ainda são surpreendentes quando você para para pensar no trabalho que foi neles.

Agora, algumas empresas estão indo além da voz virtual genérica para reunir um resultado personalizado mais específico. Isso requer examinar o vocabulário de uma pessoa em particular e coletar grandes quantidades de vídeo de voz exclusivo, aplicando esse arquivo aos ritmos complexos de fonética, ênfase, cadência e todas as outras pequenas dicas que os linguistas geralmente agrupam sob a ampla faixa de "prosódia".

O que sai é uma voz que os ouvintes consideram "possuída" por uma pessoa em particular - alguém com quem eles conhecem e com quem falaram, ou alguém cuja voz eles reconhecem como resultado da fama da pessoa.

De Elvis a Martin Luther King, a voz de qualquer um agora pode ser "clonada" dessa maneira - desde que haja um registro substancial e pré-gravado de seu discurso. Ao aplicar análises e manipulações ainda mais detalhadas a pequenos sons individuais, as empresas podem fazer uma cópia virtual da voz de alguém que se parece muito com a coisa real.

Emocionantes criações "Text to Voice" na VivoText

A VivoText, por exemplo, é uma empresa que está trabalhando para revolucionar o uso de vozes humanas artificiais para todos os tipos de campanhas, de audiolivros a resposta de voz interativa (IVR). Na VivoText, as equipes de pesquisa e produção estão trabalhando em processos que, teoricamente, poderiam replicar especificamente as vozes de celebridades falecidas, como o próprio Ol 'Blue Eyes.

"Para clonar a voz de Frank Sinatra, nós realmente passaríamos pelo seu legado gravado", diz o CEO da VivoText, Gershon Silbert, falando sobre como esse tipo de tecnologia poderia funcionar.

No momento, a VivoText está trabalhando para arquivar as vozes daqueles que ainda estão conosco, como o correspondente da NPR Neal Conan, que se inscreveu como modelo para esse tipo de projeto pioneiro em TI. Um vídeo promocional mostra os trabalhadores do VivoText criando meticulosamente módulos de código fonético usando a entrada de voz fornecida pela Conan. Eles então criam modelos de ferramentas de conversão de texto em fala (TTS) que evocam um resultado dramaticamente humano e personificado.

De acordo com Ben Feibleman, vice-presidente de estratégia e desenvolvimento de negócios da VivoText, o computador trabalha no nível do fonema (usando as menores partes únicas da fala) para se adaptar a um modelo prosódico de uma voz humana individual.

"Ele sabe como a voz fala", diz Feibleman, acrescentando que, usando a "seleção de unidades", o computador escolhe várias peças para reunir uma única palavra curta, como onde a palavra "sexta-feira" recebe cinco componentes que ajudam a desenvolver ênfase particular e resultado tonal.

Voz Artificial em Marketing

Então, como isso funciona no marketing? Os produtos da VivoText podem ser extremamente úteis na criação de produtos, como audiolivros, que podem atingir o público-alvo. Por exemplo, quanto mais eficaz uma voz de Elvis seria comparada a uma das atuais, genéricas, inexpressivas e automatizadas, se fosse usada para vender produtos relacionados a entretenimento?

Ou, que tal na política? A Feibleman vem trabalhando em várias idéias para usar projetos como esses para aprimorar o marketing para empresas ou outras partes que precisam de mensagens mais eficazes.

"Se você conhece algum político que está concorrendo à presidência, isso pode fazer com que 10 milhões de eleitores do estado do balanço recebam uma ligação pessoal de um candidato, agradecendo-lhes pelo apoio, dizendo a eles onde precisam ir para votar, o clima e todas as guarnições do noite antes da eleição ", disse Feibleman.

Sua voz vive

Há outra aplicação óbvia para toda essa tecnologia. Empresas de idiomas naturais como o VivoText poderiam criar um serviço pessoal que carregaria todos os dados de voz de um cliente em um produto que permitiria que essa pessoa "falasse para sempre".

A implementação prática provavelmente levantaria uma série de perguntas sobre como ouvimos e internalizamos as vozes faladas. Por exemplo, o que é necessário para fazer um fluxo de som parecer exatamente como alguém? Quão bem temos que conhecer uma pessoa para reconhecer uma voz específica? E, curiosamente, o que acontece se um serviço de linguagem natural produz uma caricatura grosseira, em vez de uma imitação convincente?

A avaliação de resultados, diz Feibleman, geralmente depende da consideração do contexto. Por exemplo, ele diz que as crianças geralmente não fazem perguntas sobre quem está falando quando ouvem uma história. Eles só querem mais. Mas também, muitos adultos podem não pensar em quem está falando com eles, em um cenário específico, como uma transmissão passiva ou uma mensagem telefônica. Além disso, é mais fácil ser enganado por um computador por telefone, porque o som abafado pode mascarar falhas ou outras discrepâncias entre os resultados do computador e a voz humana.

"Não lhe ocorre contestar a autenticidade da voz", diz Feibleman.

No ano 2525

À medida que as empresas avançam no desenvolvimento de produtos e serviços e respondem a essas perguntas, as tecnologias do "discurso vivo" podem avançar na direção da convergência da tecnologia e da mente humana, que tem sido chamada de inteligência artificial (IA).

Se os computadores puderem falar como nós, poderão ser capazes de induzir outros usuários a pensar que pensam como nós, alimentando o princípio maior de singularidade, introduzido em nosso léxico por John von Neumann, pioneiro da tecnologia da década de 1950 evangelizado por escritores. e pensadores como Ray Kurzweil. O livro de Kurzweil, de 2005, "The Singularity Is Near", excita alguns e assusta outros. Kurzweil previu que, em 2045, a "inteligência" como um fenômeno ficará muito descolada do cérebro humano e migrará para a tecnologia, obscurecendo as linhas entre as máquinas e seus mestres humanos.

Imortalizado na letra de "In the Year 2525", de Zager & Evans (ninguém faz baladas de ficção científica assustadoras como esses caras)…

No ano de 4545

Você não vai precisar de seus dentes, não precisará

seus olhos

Você não encontrará nada para mastigar

Ninguém vai olhar para você

No ano de 5555

Seus braços pendendo flácidos ao seu lado

Suas pernas não têm nada a ver

Alguma máquina está fazendo isso por você

As vozes do computador são um passo nessa direção? Como uma nova maneira de terceirizar algumas das funções do corpo humano (ou mais comumente, para simulá-las), esse tipo de progresso tecnológico é um dos maiores - e provavelmente subnotificados - avanços no horizonte, quando olhamos para um futuro singular . (sobre "a singularidade" em computadores capazes de imitar a mente humana?)