Em Alta NotíciasConflitosPessoasAcontecimentos internacionaiseconomia

Converse com o Telinha

Telinha
Oi! Posso responder perguntas apenas com base nesta matéria. O que você quer saber?

Agente de IA é projetado para não sair do controle

Projeto de código aberto IronCurtain cria uma constituição para IA, limitando ações via máquina isolada e políticas em inglês convertidas por um modelo de linguagem

Photo
0:00
Carregando...
0:00
  • IronCurtain é um projeto de código aberto que cria uma assistente de IA segura, operando em uma máquina virtual isolada.
  • As ações do agente são mediadas por uma política, escrita pelo dono, funcionando como uma constituição para o sistema.
  • O sistema converte instruções em inglês simples em políticas de segurança por meio de um modelo de linguagem grande (LLM).
  • O objetivo é evitar comportamentos imprevisíveis de IA, mantendo controle auditável e possibilidade de ajuste contínuo pela pessoa responsável.
  • O projeto é um protótipo de pesquisa, independente de modelo, buscando contribuição da comunidade; especialistas apoiam a abordagem para restringir capacidades da IA.

O pesquisador de segurança Niels Provos lançou um novo projeto de código aberto chamado IronCurtain, destinado a impor controle a assistentes de IA. A ideia é evitar que agentes digitais atuem de forma desviante, invertendo a vida digital dos usuários. O protótipo funciona em máquina virtual isolada e depende de políticas escritas pelo dono para ditar o que pode ser feito.

Ao contrário de agentes que interagem diretamente com sistemas e contas, IronCurtain mede as ações por meio de uma política. O proprietário redige a regra em linguagem comum, que é convertida em política de segurança por meio de um processo com uso de grande modelo de linguagem. O objetivo é criar limites previsíveis.

A abordagem pretende conter a variabilidade de comportamento dos modelos de linguagem, que costumam ser probabilísticos. Assim, a política resulta em linhas vermelhas determinísticas para o agente, dificultando ações não autorizadas. O sistema também mantém um log de auditoria das decisões ao longo do tempo.

Conceito e funcionamento

IronCurtain traduz instruções simples em políticas executáveis que mediadores entre o agente e o servidor de protocolo de contexto do modelo. Dessa forma, plataformas de serviço como provedores de email não oferecem esse nível de controle, já que o cenário envolve humanos e IA usando uma única conta.

Provos afirma que o projeto pode evoluir com a experiência, ajustando a constituição do usuário conforme surgem casos-limite. O protótipo é independente de modelo e pode ser usado com qualquer LLM, mantendo registro de decisões para auditoria.

Perspectivas e participantes

Dino Dai Zovi, pesquisador de cibersegurança, participa das primeiras versões de IronCurtain. Ele destaca que muitos sistemas atuais exigem permissões do usuário para cada ação, o que pode levar ao desgaste e permissões insuficientes. O conceito do projeto é limitar capacidades sensíveis, como excluir arquivos, ao alcance do LLM.

Dai Zovi sustenta que restrições claras, mesmo que rígidas, são necessárias para aumentar a autonomia de IA de forma segura. Segundo ele, estruturar o controle é essencial para permitir maior velocidade de atuação sem comprometer a segurança do usuário.

Comentários 0

Entre na conversa da comunidade

Os comentários não representam a opinião do Portal Tela; a responsabilidade é do autor da mensagem. Conecte-se para comentar

Veja Mais