Em Alta NotíciasConflitoseconomiaFutebolrelações internacionais

Converse com o Telinha

Telinha
Oi! Posso responder perguntas apenas com base nesta matéria. O que você quer saber?
Entrar

Pesquisa revela falha que deixa LLMs menos confiáveis

Estudo do MIT mostra que LLMs podem confiar em padrões sintáticos aprendidos, gerando respostas inadequadas; bench de avaliação busca mitigar esse risco de uso indevido

Telinha
Por Revisado por Time de Jornalismo Portal Tela
An LLM might learn that a question like “Where is Paris located?” is structured as adverb/verb/proper noun/verb. If the model is given a new question with the same grammatical structure but nonsense words, like “Quickly sit Paris clouded?” it might answer “France” even though that answer makes no sense.
0:00 0:00
  • Estudo do MIT aponta que LLMs podem responder usando padrões gramaticais aprendidos, em vez de conhecimento do domínio.
  • Isso pode levar a respostas incorretas em novas tarefas, associando estruturas de frases a tópicos específicos.
  • Experimentos com GPT‑4 e Llama mostraram que modelos podem falhar even com perguntas com sentido ausente se a sintaxe remeter a um tema conhecido.
  • Há risco de segurança: alguém pode explorar esse fenômeno para fazer o modelo gerar conteúdo nocivo, mesmo com salvaguardas.
  • Os pesquisadores criaram um método de benchmarking para medir essa dependência sintaxe‑domínio e orientar mitigação futura; o trabalho será apresentado na conferência Neural Information Processing Systems.

Dois ou três parágrafos introdutórios descrevem o que aconteceu: estudo realizado por pesquisadores do MIT revelou que grandes modelos de linguagem podem recorrer a padrões gramaticais aprendidos durante o treinamento para responder a perguntas, em vez de usar apenas o conhecimento do domínio. O resultado pode comprometer a confiabilidade de LLMs em tarefas de atendimento ao cliente, resumo de notas clínicas e geração de relatórios financeiros. O trabalho será apresentado na conferência NeurIPS.

A pesquisa identifica que os modelos associam templates sintáticos a domínios específicos, levando a respostas convincentes baseadas na forma da frase e não no conteúdo. Experimentos com modelos de ponta mostraram falhas quando a estrutura da pergunta foi alterada, mesmo mantendo o significado. Ponto central: a dependência de padrões pode reduzir a precisão em tarefas novas.

Metodologia

Os autores criaram experimentos sintéticos para testar a influência de apenas um template por domínio no treinamento. Substituições de palavras mantiveram a sintaxe, revelando falhas quando a estrutura era alterada. Testes com GPT-4 e Llama evidenciaram queda de desempenho diante de novas combinações de sintaxe.

Resultados e implicações

Foi possível demonstrar que a associação entre sintaxe e domínio pode induzir respostas inadequadas ou perigosas, ainda que salvaguardas existam. Os pesquisadores desenvolveram um procedimento de avaliação automática para medir a dependência desses padrões, útil para mitigar riscos antes de implantação.

Perspectivas

A equipe planeja investigar estratégias de mitigação, como enriquecer dados de treinamento com mais variações de templates. O objetivo é reduzir vulnerabilidades em cenários de segurança, especialmente em domínios sensíveis, sem comprometer a performance. Pesquisadores ressaltam a necessidade de avançar na análise de sintaxe para segurança de modelos.

Comentários 0

Entre na conversa da comunidade
Os comentários não representam a opinião do Portal Tela; a responsabilidade é do autor da mensagem. Conecte-se para comentar

Veja Mais