Agente de IA é projetado para não sair do controle

IronCurtain é um projeto de código aberto que cria uma assistente de IA segura, operando em uma máquina virtual isolada.
As ações do agente são mediadas por uma política, escrita pelo dono, funcionando como uma constituição para o sistema.
O sistema converte instruções em inglês simples em políticas de segurança por meio de um modelo de linguagem grande (LLM).
O objetivo é evitar comportamentos imprevisíveis de IA, mantendo controle auditável e possibilidade de ajuste contínuo pela pessoa responsável.
O projeto é um protótipo de pesquisa, independente de modelo, buscando contribuição da comunidade; especialistas apoiam a abordagem para restringir capacidades da IA.

O pesquisador de segurança Niels Provos lançou um novo projeto de código aberto chamado IronCurtain, destinado a impor controle a assistentes de IA. A ideia é evitar que agentes digitais atuem de forma desviante, invertendo a vida digital dos usuários. O protótipo funciona em máquina virtual isolada e depende de políticas escritas pelo dono para ditar o que pode ser feito.

Ao contrário de agentes que interagem diretamente com sistemas e contas, IronCurtain mede as ações por meio de uma política. O proprietário redige a regra em linguagem comum, que é convertida em política de segurança por meio de um processo com uso de grande modelo de linguagem. O objetivo é criar limites previsíveis.

A abordagem pretende conter a variabilidade de comportamento dos modelos de linguagem, que costumam ser probabilísticos. Assim, a política resulta em linhas vermelhas determinísticas para o agente, dificultando ações não autorizadas. O sistema também mantém um log de auditoria das decisões ao longo do tempo.

Conceito e funcionamento

IronCurtain traduz instruções simples em políticas executáveis que mediadores entre o agente e o servidor de protocolo de contexto do modelo. Dessa forma, plataformas de serviço como provedores de email não oferecem esse nível de controle, já que o cenário envolve humanos e IA usando uma única conta.

Provos afirma que o projeto pode evoluir com a experiência, ajustando a constituição do usuário conforme surgem casos-limite. O protótipo é independente de modelo e pode ser usado com qualquer LLM, mantendo registro de decisões para auditoria.

Perspectivas e participantes

Dino Dai Zovi, pesquisador de cibersegurança, participa das primeiras versões de IronCurtain. Ele destaca que muitos sistemas atuais exigem permissões do usuário para cada ação, o que pode levar ao desgaste e permissões insuficientes. O conceito do projeto é limitar capacidades sensíveis, como excluir arquivos, ao alcance do LLM.

Dai Zovi sustenta que restrições claras, mesmo que rígidas, são necessárias para aumentar a autonomia de IA de forma segura. Segundo ele, estruturar o controle é essencial para permitir maior velocidade de atuação sem comprometer a segurança do usuário.

Converse com o Telinha

Agente de IA é projetado para não sair do controle

Conceito e funcionamento

Perspectivas e participantes

Relacionados:

Comentários 0

Entre na conversa da comunidade

Veja Mais