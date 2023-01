A Microsoft apresentou, na última semana, uma inteligência artificial (IA) capaz de imitar vozes de pessoas em poucos segundos, revelando o fortalecimento do uso de áudio para alimentar algoritmos chamados text-to-speech. Chamado de VALL-E, a IA precisa de apenas três segundos para ouvir, sintetizar e imitar uma voz humana em diferentes contextos.

Segundo a empresa, esse é um novo modelo de linguagem para síntese de texto para fala (text-to-speech, TTS na sigla em inglês), que visa tornar mais natural a forma com que textos podem ser transformados em áudios — uma tentativa de evitar a voz mecânica ou despersonalizada, de assistentes de áudio ou aplicativos como Google Tradutor, por exemplo).

Leia também Empresa de inteligências artificiais ‘da moda’ se torna uma das startups mais valiosas dos EUA

Para isso, mais de 60 mil horas de gravações serviram de treino para que a IA pudesse identificar diferentes características e tom de voz humano, em situações distintas de humor e de ambiente externo.

Nos exemplos apresentados pela Microsoft, amostras de áudio de bancos como o LibriSpeech Samples e VCTK Samples são utilizados como base para gerar falas de textos pré-definidos. Assim, após a identificação da entonação e de fatores como frequência e timbre, o texto é “imitado” pela inteligência com a mesma voz ouvida na amostra.

VALL-E also synthesizes voice variations for the same input text. pic.twitter.com/Yy9hj05Qa3 — Amogh Vaishampayan (@amogh42) January 7, 2023

As gravações, que serviram de base para o algoritmo, porém, foram feitas todas em inglês, único idioma que o VALL-E suporta até o momento. O resultado, de acordo com a Microsoft, oferece a preservação “da emoção do locutor e o ambiente acústico do prompt acústico na síntese”.

Outro ponto do VALL-E destacado pela Microsoft é a possibilidade de combinar suas ferramentas com outros tipos de IA, como a GPT-3, por exemplo, um gerador conversacional de textos da startup americana OpenAI. Ambas as tecnologias são consideradas generativas, ou seja, podem criar conteúdo a partir de amostras.