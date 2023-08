Os seres humanos não conseguem identificar pouco mais de um quarto dos áudios falsos, gerados por inteligência artificial, segundo um novo estudo divulgado nesta quarta-feira, 2. O porcentual vale para áudios falsos em inglês e em mandarim.

Pesquisadores da University College London usaram um algoritmo e bancos de dados em inglês e em mandarim para gerar artificialmente 50 amostras de áudios “deepfake” em cada uma das línguas. Deepfakes são mídias (de áudio ou de vídeo) falsas criadas para parecerem reais.

As amostras de áudio foram apresentadas para 529 participantes juntamente com outras verdadeiras para ver se eles conseguiriam distinguir um discurso real de outro criado artificialmente. Os participantes conseguiram detectar os áudios falsos em 73% das vezes mesmo depois de receberem um treinamento para reconhecer deepfakes. A conclusão dos cientistas é de que os seres humanos têm dificuldades de identificar um áudio falso, mesmo quando são treinados para isso.

Pesquisadores da University College London usaram um algoritmo e bancos de dados em inglês e em mandarim para gerar artificialmente 50 amostras de áudios “deepfake” em cada uma das línguas Foto: Dado Ruvic/REUTERS

“Em nosso estudo, mostramos que treinar pessoas para detectar deepfakes não é uma forma necessariamente confiável de ajudá-las a acertar mais vezes”, afirmou Kimberly Mai, primeira autora do estudo. “Infelizmente, nosso estudo também mostra que, atualmente, os detectores automáticos também não são confiáveis.”

Segundo a pesquisadora, as pessoas conseguiam detectar os áudios falsos quando elas tinham ouvido amostras muito parecidas na fase de treinamento. Por exemplo, se a voz era a mesma ou se o áudio tivesse sido gravado em um ambiente acústico parecido. Mas não quando havia mudanças nas condições da gravação do áudio.

Kimberley Mai afirmou ainda que é importante aprimorar os detectores automáticos de áudios falsos e que as empresas “comecem a pensar em estratégias para mitigar a ameaça que os conteúdos ‘deepfake’ representam”.

Nos vídeos feitos com tecnologia ‘deepfake’ há mais pistas disponíveis para identificação do que nos áudios, lembra a cientista.

Enquanto no começo os algoritmos de fala precisavam de milhares de amostras da voz de uma pessoa para conseguir gerar um áudio original, os mais recentes podem recriar a voz de uma pessoa usando apenas um clip de três segundos de sua fala. Muitos desses algoritmos estão disponíveis gratuitamente.

Recentemente, a Apple anunciou um software para iPhone e iPad que permite ao usuário criar uma cópia da própria voz usando apenas 15 minutos de gravação.

De acordo com os pesquisadores, há benefícios na tecnologia de geração de áudios por inteligência artificial, como ajudar pessoas cuja capacidade de fala seja limitada, por exemplo. Mas há crescentes temores de que a tecnologia possa ser usada por criminosos e nações com o objetivo de causar danos a indivíduos e sociedades.

“Com as tecnologias de inteligência artificial se tornando cada vez mais sofisticadas e com muitas dessas ferramentas acessíveis, estamos à beira de vermos numerosos benefícios, mas também muitos riscos”, afirmou Lews Griffin, da University College London, que também assina o estudo. “Seria prudente que os governos e organizações desenvolvessem estratégias para lidar com o abuso dessas ferramentas, mas também devemos reconhecer as possibilidades positivas no horizonte.”