15 de jul 2025
Programas de IA podem "desaprender" a imitar vozes de certas pessoas
Pesquisadores desenvolvem técnica de machine unlearning para eliminar vozes de deepfakes, aumentando segurança e privacidade em IA.

Novas pesquisas mostram que modelos podem ser editados diretamente para ocultar vozes selecionadas, mesmo quando os usuários pedem especificamente por elas. (Foto: Reprodução/@MIT)
Ouvir a notícia:
Programas de IA podem "desaprender" a imitar vozes de certas pessoas
Ouvir a notícia
Programas de IA podem "desaprender" a imitar vozes de certas pessoas - Programas de IA podem "desaprender" a imitar vozes de certas pessoas
Pesquisadores da Universidade Sungkyunkwan, na Coreia do Sul, apresentaram uma nova técnica chamada "machine unlearning", que ensina modelos de inteligência artificial a esquecer vozes específicas. Essa abordagem é crucial para combater o aumento de fraudes e desinformação geradas por deepfakes de áudio, onde vozes são copiadas para enganar pessoas. A técnica demonstrou reduzir a eficácia das imitações em mais de 75%, embora tenha um leve impacto na precisão de outras vozes.
A tecnologia de deepfake de áudio tem avançado rapidamente, permitindo a reprodução convincente de vozes a partir de poucos segundos de gravação. Jong Hwan Ko, professor da Sungkyunkwan, destaca que qualquer voz pode ser replicada, o que levanta preocupações sobre identidade e consentimento. Com a crescente demanda por soluções que protejam a privacidade, a técnica de machine unlearning surge como uma alternativa viável.
Como Funciona o Machine Unlearning
O processo de machine unlearning envolve a criação de um novo modelo de IA que não retém informações sobre vozes específicas. Para isso, os pesquisadores utilizam dados de treinamento e um modelo original "vazado" para gerar uma versão que nunca aprendeu a voz em questão. Jinju Kim, estudante de mestrado, compara essa técnica a cercas que protegem dados indesejados, enquanto o unlearning busca eliminar completamente essas informações.
Os modelos de texto-para-fala atuais complicam o processo, pois podem aprender a imitar vozes não incluídas no conjunto de treinamento. Para contornar isso, a equipe treinou uma versão do modelo VoiceBox, da Meta, para responder com vozes aleatórias ao invés de vozes que deveriam ser esquecidas. Os resultados preliminares, que serão apresentados na Conferência Internacional de Aprendizado de Máquina, mostram que a nova abordagem é eficaz em esquecer vozes indesejadas.
Desafios e Perspectivas Futuras
Embora a técnica tenha mostrado resultados promissores, o processo de unlearning pode levar vários dias e requer gravações de aproximadamente cinco minutos para cada voz a ser esquecida. A pesquisa também revela que, embora a eficácia na imitação de vozes permitidas diminua em cerca de 2,8%, a diferença é considerada aceitável diante da segurança proporcionada.
A técnica de machine unlearning ainda está em desenvolvimento, mas há interesse da indústria em aplicá-la em sistemas como o VoiceBox. Vaidehi Patil, pesquisadora da Universidade da Carolina do Norte, observa que a técnica pode ser um passo importante para melhorar a segurança em aplicações de IA. A equipe de pesquisa está otimista quanto à possibilidade de implementar soluções mais rápidas e escaláveis no futuro.
Perguntas Relacionadas
Comentários
Os comentários não representam a opinião do Portal Tela;
a responsabilidade é do autor da mensagem.