- Pesquisadores da SafeBreach mostraram que o Google Gemini pode ser hackeado por uma mensagem de WhatsApp, com instruções ocultas que o assistente segue sem alertar o usuário.
- A técnica usada é a “injeção de prompt indireta” (Fake Context Alignment), que contorna defesas do Gemini para executar comandos a partir de conteúdos recebidos.
- O ataque funciona lendo notificações de apps como WhatsApp, Slack, Signal, SMS, Instagram e Messenger, permitindo roubo de dados, ações não autorizadas, relé de phishing, tomada de conta e vigilância silenciosa.
- A Google admite defesas, mas a pesquisa mostra que as proteções foram contornadas, recomendando revisão de permissões e desativação de acessos não usados ao Gemini.
- O episódio aumenta a preocupação com o ataque superfície de assistentes de IA e reforça a necessidade de higiene de permissões, além de acompanhar outras novidades do setor, como lançamentos e parcerias em IA.
O Google Gemini pode ser vulnerável a ataques de prompt injection por mensagens de aplicativos. Pesquisadores da SafeBreach Labs demonstraram como uma mensagem comum de WhatsApp pode acionar instruções ocultas no assistente, levando à exfiltração de dados sem que o usuário perceba.
O ataque utiliza uma técnica de injeção indireta, com um contexto falso embutido no conteúdo da mensagem. O objetivo é fazer com que o Gemini siga comandos maliciosos disfarçados de parte da conversa, burlando defesas existentes da plataforma.
Segundo os pesquisadores, o ataque funciona lendo notificações de apps de mensagens para fornecer contexto ao assistente. A demonstração foi capaz de abranger WhatsApp, Slack, Signal, SMS, Instagram e Messenger.
Detalhes técnicos
O método possibilita cinco categorias de ameaça: roubo de dados, ações não autorizadas, encaminhamento de phishing, preparação para tomada de conta e vigilância silenciosa. Mesmo sem acesso a ferramentas externas, o contexto contaminado pode induzir o Gemini a emitir mensagens do sistema falsas ou lançar ataques de phishing.
A Google já possui camadas de defesa, mas as pesquisas mostram que essas proteções foram contornadas pela segunda vez pela mesma equipe. O estudo reforça a necessidade de gestão de permissões e de desativar acessos não essenciais do assistente.
Impactos e respostas
O alerta não aponta apenas a falha de um aplicativo isoladamente, mas o desenho de como assistentes de IA interagem com notificações. Quanto maior o acesso do assistente a apps, maior o potencial de danos. As orientações da própria Google recomendam auditoria de acessos e a desativação de funções não utilizadas.
Especialistas destacam que a solução envolve ajustes de permissões e melhorias contínuas nas defesas contra injeções de prompts. O próximo pesquisador já estaria implementando novas avaliações para evitar recorrências.
Entre na conversa da comunidade