Ataque a agentes de IA expõe novo risco na cadeia de software

Pesquisadores da Tenet descrevem o ataque “Agentjacking”, que manipula agentes de codificação com IA para executar comandos de invasores, sem phishing ou invasão direta da infraestrutura.
A técnica usa integrações baseadas no Model Context Protocol e ferramentas de observabilidade, como o Sentry, para alimentar a IA com dados externos tratados como instruções confiáveis.
O ponto de entrada é o DSN público do Sentry, credencial de gravação exposta em aplicações frontend, permitindo enviar eventos falsos para a API e controlar dados do pintor.
Esses eventos podem incluir Markdown que pareça orientação legítima de correção; a IA consulta o Sentry e pode considerar o conteúdo malicioso como parte do diagnóstico.
Em demonstração, os pesquisadores fizeram agentes executarem um comando npx que baixava e rodava um pacote de repositório público, com privilégios locais do desenvolvedor, potencialmente expondo variáveis de ambiente e credenciais de nuvem.

Um novo vetor de ataque, chamado Agentjacking, foi apresentado por pesquisadores da Tenet. Ele mostra como agentes de codificação com IA podem ser manipulados para executar comandos controlados por invasores. O método não depende de phishing, malware tradicional ou invasão direta da infraestrutura.

A técnica usa ferramentas de observabilidade, como o Sentry, através de integrações baseadas no Model Context Protocol. Dados externos, antes vistos apenas como registros, podem ser interpretados como instruções confiáveis por agentes de IA.

O ponto de entrada é o DSN público do Sentry, uma credencial de gravação comum em aplicações frontend. Com esse identificador, um atacante pode enviar eventos falsos para a API de ingestão da plataforma e controlar mensagens, contexto, rastros, tags e metadados.

Eventos injetados podem conter Markdown formatado para parecer uma orientação legítima de correção. Quando o desenvolvedor solicita ao agente a resolução de problemas, a IA consulta o Sentry e considera o conteúdo injetado como parte do diagnóstico.

Na prova de conceito, pesquisadores mostraram que agentes podem ser levados a executar um comando npx. Esse comando baixa e executa um pacote de um repositório público, com privilégios locais do desenvolvedor.

O uso indevido pode expor variáveis de ambiente, arquivos de configuração e credenciais de nuvem. Os resultados destacam a necessidade de restringir fluxos de dados entre plataformas de observabilidade e ambientes de desenvolvimento.