Tecnologia

Pesquisadores criticam a eficácia dos benchmarks na avaliação de modelos de inteligência artificial

A pesquisa da Stanford critica benchmarks de IA, apontando falhas de design. OpenAI lançou o GPT 4o, mas resultados de testes são difíceis de replicar. Iniciativas como BetterBench visam criar padrões mais eficazes para avaliação. O novo benchmark Humanity’s Last Exam busca testar conhecimento avançado. Regulamentações futuras, como a do EU AI Act, dependem da qualidade dos benchmarks.

Ilustração fotográfica mostrando um braço robótico puxando linhas de gráfico, ilustrando benchmarks de IA (Foto: Sarah Rogers/MITTR | Photos Getty)

Ilustração fotográfica mostrando um braço robótico puxando linhas de gráfico, ilustrando benchmarks de IA (Foto: Sarah Rogers/MITTR | Photos Getty)

Ouvir a notícia

Pesquisadores criticam a eficácia dos benchmarks na avaliação de modelos de inteligência artificial - Pesquisadores criticam a eficácia dos benchmarks na avaliação de modelos de inteligência artificial

0:000:00

A recente pesquisa da Stanford University destaca a fragilidade dos benchmarks utilizados para avaliar modelos de inteligência artificial (IA). Anka Reuel, autora do estudo, aponta que esses testes, como o MMLU, frequentemente apresentam resultados difíceis de replicar e critérios arbitrários, o que pode criar uma falsa sensação de segurança em relação à eficácia dos modelos. Esses benchmarks são essenciais, pois influenciam a regulamentação e a supervisão que os modelos de IA receberão, especialmente com a implementação do EU AI Act em agosto de 2025, que utilizará esses testes para identificar riscos sistêmicos.

Os pesquisadores tentaram verificar os resultados dos benchmarks, mas enfrentaram dificuldades devido à falta de acesso ao código e às perguntas utilizadas nos testes. Anna Ivanova, professora da Georgia Institute of Technology, ressalta que os desenvolvedores tendem a otimizar seus modelos para esses benchmarks, o que pode distorcer a avaliação real de suas capacidades. Além disso, muitos benchmarks estão saturados, ou seja, as questões já foram resolvidas, o que não reflete o verdadeiro progresso dos modelos.

O estudo propõe critérios para a criação de benchmarks mais eficazes e lançou o site BetterBench, que classifica os benchmarks existentes com base em fatores como consulta a especialistas e definição clara das capacidades testadas. Dan Hendrycks, diretor do CAIS, embora discorde de algumas classificações, concorda que a melhoria dos benchmarks é crucial para o avanço da área. A pesquisa também destaca a importância de medir corretamente as capacidades que realmente importam, como a segurança cibernética, em vez de focar em habilidades menos relevantes.

Organizações como a Epoch AI estão desenvolvendo novos benchmarks com a participação de especialistas, visando criar testes desafiadores que ainda não foram saturados. Tamay Besiroglu, da Epoch AI, afirma que o novo benchmark representa a profundidade da pesquisa matemática moderna. Por outro lado, o CAIS está colaborando com a Scale AI para criar o Humanity’s Last Exam, que promete avaliar modelos de IA com questões que exigem compreensão de nível de doutorado. A necessidade de benchmarks robustos é amplamente reconhecida, pois eles orientam tanto as empresas quanto as regulamentações governamentais.

Meu Tela
Descubra mais com asperguntas relacionadas
crie uma conta e explore as notícias de forma gratuita.acessar o meu tela

Perguntas Relacionadas

Participe da comunidadecomentando
Faça o login e comente as notícias de forma totalmente gratuita
No Portal Tela, você pode conferir comentários e opiniões de outros membros da comunidade.acessar o meu tela

Comentários

Os comentários não representam a opinião do Portal Tela;
a responsabilidade é do autor da mensagem.

Meu Tela

Priorize os conteúdos mais relevantes para você

Experimente o Meu Tela

Crie sua conta e desbloqueie uma experiência personalizada.


No Meu Tela, o conteúdo é definido de acordo com o que é mais relevante para você.

Acessar o Meu Tela