26 de nov 2024
Pesquisadores criticam a eficácia dos benchmarks na avaliação de modelos de inteligência artificial
A pesquisa da Stanford critica benchmarks de IA, apontando falhas de design. OpenAI lançou o GPT 4o, mas resultados de testes são difíceis de replicar. Iniciativas como BetterBench visam criar padrões mais eficazes para avaliação. O novo benchmark Humanity’s Last Exam busca testar conhecimento avançado. Regulamentações futuras, como a do EU AI Act, dependem da qualidade dos benchmarks.
Ilustração fotográfica mostrando um braço robótico puxando linhas de gráfico, ilustrando benchmarks de IA (Foto: Sarah Rogers/MITTR | Photos Getty)
Ouvir a notícia:
Pesquisadores criticam a eficácia dos benchmarks na avaliação de modelos de inteligência artificial
Ouvir a notícia
Pesquisadores criticam a eficácia dos benchmarks na avaliação de modelos de inteligência artificial - Pesquisadores criticam a eficácia dos benchmarks na avaliação de modelos de inteligência artificial
A recente pesquisa da Stanford University destaca a fragilidade dos benchmarks utilizados para avaliar modelos de inteligência artificial (IA). Anka Reuel, autora do estudo, aponta que esses testes, como o MMLU, frequentemente apresentam resultados difíceis de replicar e critérios arbitrários, o que pode criar uma falsa sensação de segurança em relação à eficácia dos modelos. Esses benchmarks são essenciais, pois influenciam a regulamentação e a supervisão que os modelos de IA receberão, especialmente com a implementação do EU AI Act em agosto de 2025, que utilizará esses testes para identificar riscos sistêmicos.
Os pesquisadores tentaram verificar os resultados dos benchmarks, mas enfrentaram dificuldades devido à falta de acesso ao código e às perguntas utilizadas nos testes. Anna Ivanova, professora da Georgia Institute of Technology, ressalta que os desenvolvedores tendem a otimizar seus modelos para esses benchmarks, o que pode distorcer a avaliação real de suas capacidades. Além disso, muitos benchmarks estão saturados, ou seja, as questões já foram resolvidas, o que não reflete o verdadeiro progresso dos modelos.
O estudo propõe critérios para a criação de benchmarks mais eficazes e lançou o site BetterBench, que classifica os benchmarks existentes com base em fatores como consulta a especialistas e definição clara das capacidades testadas. Dan Hendrycks, diretor do CAIS, embora discorde de algumas classificações, concorda que a melhoria dos benchmarks é crucial para o avanço da área. A pesquisa também destaca a importância de medir corretamente as capacidades que realmente importam, como a segurança cibernética, em vez de focar em habilidades menos relevantes.
Organizações como a Epoch AI estão desenvolvendo novos benchmarks com a participação de especialistas, visando criar testes desafiadores que ainda não foram saturados. Tamay Besiroglu, da Epoch AI, afirma que o novo benchmark representa a profundidade da pesquisa matemática moderna. Por outro lado, o CAIS está colaborando com a Scale AI para criar o Humanity’s Last Exam, que promete avaliar modelos de IA com questões que exigem compreensão de nível de doutorado. A necessidade de benchmarks robustos é amplamente reconhecida, pois eles orientam tanto as empresas quanto as regulamentações governamentais.
Perguntas Relacionadas
Comentários
Os comentários não representam a opinião do Portal Tela;
a responsabilidade é do autor da mensagem.