- IronCurtain é um projeto de código aberto que cria uma assistente de IA segura, operando em uma máquina virtual isolada.
- As ações do agente são mediadas por uma política, escrita pelo dono, funcionando como uma constituição para o sistema.
- O sistema converte instruções em inglês simples em políticas de segurança por meio de um modelo de linguagem grande (LLM).
- O objetivo é evitar comportamentos imprevisíveis de IA, mantendo controle auditável e possibilidade de ajuste contínuo pela pessoa responsável.
- O projeto é um protótipo de pesquisa, independente de modelo, buscando contribuição da comunidade; especialistas apoiam a abordagem para restringir capacidades da IA.
O pesquisador de segurança Niels Provos lançou um novo projeto de código aberto chamado IronCurtain, destinado a impor controle a assistentes de IA. A ideia é evitar que agentes digitais atuem de forma desviante, invertendo a vida digital dos usuários. O protótipo funciona em máquina virtual isolada e depende de políticas escritas pelo dono para ditar o que pode ser feito.
Ao contrário de agentes que interagem diretamente com sistemas e contas, IronCurtain mede as ações por meio de uma política. O proprietário redige a regra em linguagem comum, que é convertida em política de segurança por meio de um processo com uso de grande modelo de linguagem. O objetivo é criar limites previsíveis.
A abordagem pretende conter a variabilidade de comportamento dos modelos de linguagem, que costumam ser probabilísticos. Assim, a política resulta em linhas vermelhas determinísticas para o agente, dificultando ações não autorizadas. O sistema também mantém um log de auditoria das decisões ao longo do tempo.
Conceito e funcionamento
IronCurtain traduz instruções simples em políticas executáveis que mediadores entre o agente e o servidor de protocolo de contexto do modelo. Dessa forma, plataformas de serviço como provedores de email não oferecem esse nível de controle, já que o cenário envolve humanos e IA usando uma única conta.
Provos afirma que o projeto pode evoluir com a experiência, ajustando a constituição do usuário conforme surgem casos-limite. O protótipo é independente de modelo e pode ser usado com qualquer LLM, mantendo registro de decisões para auditoria.
Perspectivas e participantes
Dino Dai Zovi, pesquisador de cibersegurança, participa das primeiras versões de IronCurtain. Ele destaca que muitos sistemas atuais exigem permissões do usuário para cada ação, o que pode levar ao desgaste e permissões insuficientes. O conceito do projeto é limitar capacidades sensíveis, como excluir arquivos, ao alcance do LLM.
Dai Zovi sustenta que restrições claras, mesmo que rígidas, são necessárias para aumentar a autonomia de IA de forma segura. Segundo ele, estruturar o controle é essencial para permitir maior velocidade de atuação sem comprometer a segurança do usuário.
Entre na conversa da comunidade