Teste psicológico revela limite da IA em tarefas longas de atenção e memória

Um grupo de pesquisadores avaliou até que ponto a atenção de IAs consegue manter foco em tarefas longas, usando um teste clássico de atenção.
O experimento adaptou listas de cores para comandos de texto de modelos de IA, com cenários de carga de atenção variando de simples a complexa.
Em tarefas curtas, as IAs tiveram alta precisão; em listas longas e com várias etapas, a taxa de acertos caiu e houve confusão entre itens semelhantes.
Observou‑se ainda que, em sequências extensas, as IAs passaram a ignorar instruções iniciais ou finais, respondendo apenas a parte mais recente ou ao começo da tarefa.
O estudo recomenda supervisão humana em tarefas com muitos passos e regras complexas, além de dividir instruções em subtarefas para melhorar confiabilidade.

Um grupo de pesquisadores avaliou a capacidade de atenção de modelos de IA usando um teste clássico de psicologia cognitiva, adaptado para ambientes digitais. O objetivo foi medir como diferentes IA lidam com tarefas de atenção contínua em listas longas e cheias de detalhes.

O experimento utilizou comandos textuais destinados a modelos de linguagem. Instruções como “indique todas as palavras em vermelho” foram seguidas por listas com cores descritas em linguagem natural. A ideia era observar desempenho e consistência das máquinas.

Cada rodada combinou blocos curtos e tarefas mais extensas. Os pesquisadores registraram não apenas a precisão, mas também a variação entre rodadas, para mapear a manutenção da atenção ao longo do tempo.

Resultados do teste

Em tarefas breves, as IA mostraram alta precisão, reconhecendo cores e contando itens conforme as instruções. O desempenho aproximou-se do observado em pessoas treinadas para o teste.

Conforme a carga de informações aumentou, a taxa de acertos caiu significativamente. Em tarefas com várias etapas, houve maior frequência de erros e confusão entre itens semelhantes.

Outra constatação foi a tendência de as IA ignorarem partes iniciais ou finais das instruções em listas extensas. Em alguns casos, a resposta refletia apenas a parte mais recente do comando.

Implicações para uso da IA

Especialistas destacam que tarefas com atenção contínua demandam supervisão humana, especialmente em etapas complexas ou com consequências relevantes. A checagem ajuda a detectar perdas de informação.

Desenhos de tarefa mais curtos e segmentados favorecem respostas mais estáveis. Dividir comandos extensos em subtarefas estruturadas reduz falhas e melhora a confiabilidade.

O estudo reforça a necessidade de testar atenção artificial com métodos clássicos da psicologia. Assim, é possível comparar máquinas e humanos em condições semelhantes e entender os limites atuais da IA em tarefas longas.