Cérebros humanos podem diferenciar vozes falsas de vozes reais
Nossos cérebros processam vozes naturais e vozes falsas de maneira diferente? Uma pesquisa realizada na Universidade de Zurique indica que é esse o caso. Num novo estudo, os investigadores identificaram duas regiões do cérebro que respondem de forma diferente às vozes naturais e falsas.
Tal como as impressões digitais, as nossas vozes são únicas e podem ajudar-nos a identificar pessoas. Os mais recentes algoritmos de síntese de voz tornaram-se tão poderosos que agora é possível criar clones deepfake que se assemelham muito às características de identidade dos falantes naturais. Isso significa que está se tornando cada vez mais fácil usar tecnologia deepfake para imitar vozes naturais, por exemplo, para enganar pessoas por telefone ou replicar a voz de um ator famoso em um assistente de voz de IA.
Até agora, porém, não estava claro como o cérebro humano reage quando apresentado a tais vozes falsas. Nossos cérebros as aceitam como reais ou eles reconhecem as “falsas”? Uma equipe de pesquisadores da Universidade de Zurique descobriu agora que as pessoas muitas vezes aceitam identidades de voz falsas como reais, mas que nossos cérebros respondem de maneira diferente a vozes falsas e profundas do que aos dos falantes naturais.
Os pesquisadores primeiro usaram métodos psicoacústicos para testar até que ponto a identidade da voz humana é preservada em vozes falsas. Para fazer isso, eles gravaram as vozes de quatro locutores masculinos e, em seguida, usaram um algoritmo de conversão para gerar vozes falsas. No experimento principal, 25 participantes ouviram múltiplas vozes e foram solicitados a decidir se as identidades de duas vozes eram iguais ou não. Os participantes tiveram que combinar a identidade de duas vozes naturais ou de uma voz natural e uma voz falsa.
Os deepfakes foram identificados corretamente em dois terços dos casos. “Isso ilustra que as atuais vozes falsas podem não imitar perfeitamente uma identidade, mas têm o potencial de enganar as pessoas”, diz Claudia Roswandowitz, primeira autora e pós-doutoranda no Departamento de Lingüística Computacional.
Os pesquisadores então usaram técnicas de imagem para examinar quais regiões do cérebro responderam de maneira diferente às vozes falsas em comparação às vozes naturais. Eles identificaram com sucesso duas regiões capazes de reconhecer as vozes falsas: o núcleo accumbens e o córtex auditivo. “O núcleo accumbens é uma parte crucial do sistema de recompensa do cérebro. Ele era menos ativo quando os participantes eram encarregados de combinar a identidade entre deepfakes e vozes naturais”, diz Claudia Roswandowitz. Em contraste, o núcleo accumbens mostrou muito mais atividade quando se tratava de comparar duas vozes naturais.
O córtex auditivo distingue a qualidade acústica em vozes naturais e falsas
A segunda região cerebral ativa durante os experimentos, o córtex auditivo, parece responder às diferenças acústicas entre as vozes naturais e os deepfakes. Essa região, que processa informações auditivas, ficou mais ativa quando os participantes tiveram que distinguir entre deepfakes e vozes naturais. “Suspeitamos que esta região responde à imitação imperfeita das vozes deepfake, numa tentativa de compensar a informação acústica que falta nos deepfakes”, diz Roswandowitz. Quanto menos natural e agradável for percebida uma voz falsa em comparação com a voz natural correspondente, maiores serão as diferenças na atividade do córtex auditivo.
Vozes deepfake parecem menos agradáveis de ouvir, quase independentemente da qualidade do som acústico. “Assim, os humanos só podem ser parcialmente enganados por deepfakes. Os mecanismos neurais identificados durante o processamento de deepfakes destacam particularmente a nossa resiliência a informações falsas, que encontramos com mais frequência na vida quotidiana”, diz Roswandowitz.
Literatura:
Claudia Roswandowitz, Thayabaran Kathiresan, Elisa Pellegrino, Volker Dellwo, Sascha Frühholz. A rede cerebral córtico-estriatal distingue a identidade do falante deepfake da real. Commun Biol 7, 711 (2024). https://doi.org/10.1038/s42003’024 -06372-6