Tecnologia

SWE-Bench gera polêmica ao avaliar habilidades de programação de modelos de IA

A indústria de IA enfrenta uma crise de avaliação, com benchmarks como SWE Bench sendo manipulados. Pesquisadores propõem uma abordagem mais rigorosa e válida, destacando a necessidade de redefinir habilidades e focar em testes específicos. Iniciativas como o projeto BetterBench buscam melhorar a transparência e a eficácia das avaliações, desafiando a validade de métodos tradicionais.

Mão colocando tiras de papel com padrões de gráfico e circuito - MIT Technology Review (Foto: Getty)

Mão colocando tiras de papel com padrões de gráfico e circuito - MIT Technology Review (Foto: Getty)

Ouvir a notícia

SWE-Bench gera polêmica ao avaliar habilidades de programação de modelos de IA - SWE-Bench gera polêmica ao avaliar habilidades de programação de modelos de IA

0:000:00

A indústria de inteligência artificial (IA) enfrenta críticas crescentes sobre a validade de seus benchmarks, como o SWE-Bench, que avalia habilidades de programação. Lançado em novembro de 2024, o SWE-Bench se tornou popular, mas pesquisadores apontam que ele pode ser manipulado, levando a uma avaliação distorcida das capacidades dos modelos.

Pesquisadores estão propondo uma nova abordagem para a avaliação de IA, focando na validade e na definição clara de habilidades. O projeto BetterBench, iniciado em novembro de 2024, visa classificar benchmarks com base em critérios rigorosos, incluindo a transparência e a relação entre as habilidades testadas e as tarefas reais. A iniciativa busca corrigir a falta de clareza em benchmarks existentes, como o SWE-Bench, que tem sido criticado por não refletir a verdadeira capacidade dos modelos.

A crescente pressão para obter altas pontuações em benchmarks tem levado desenvolvedores a adaptar seus modelos para se saírem bem em testes específicos, em vez de focar em habilidades gerais. John Yang, pesquisador da Universidade de Princeton, observa que modelos de alto desempenho falham em outras linguagens de programação, revelando uma abordagem que ele descreve como "dourada", ou seja, que aparenta ser eficaz, mas não é.

A situação atual é considerada uma "crise de avaliação" por especialistas, como Andrej Karpathy, cofundador da OpenAI. Ele destaca a necessidade de métodos confiáveis para medir as capacidades dos modelos. A proposta de focar em testes de validade, inspirados nas ciências sociais, busca estabelecer definições claras para conceitos como "raciocínio" e "conhecimento científico", que atualmente são mal definidos.

A mudança para uma abordagem mais rigorosa pode ajudar a indústria a desenvolver modelos mais eficazes e confiáveis. O BetterBench já começou a impactar a discussão sobre a validade dos benchmarks, promovendo uma avaliação mais precisa das capacidades dos sistemas de IA.

Meu Tela
Descubra mais com asperguntas relacionadas
crie uma conta e explore as notícias de forma gratuita.acessar o meu tela

Perguntas Relacionadas

Participe da comunidadecomentando
Faça o login e comente as notícias de forma totalmente gratuita
No Portal Tela, você pode conferir comentários e opiniões de outros membros da comunidade.acessar o meu tela

Comentários

Os comentários não representam a opinião do Portal Tela;
a responsabilidade é do autor da mensagem.

Meu Tela

Priorize os conteúdos mais relevantes para você

Experimente o Meu Tela

Crie sua conta e desbloqueie uma experiência personalizada.


No Meu Tela, o conteúdo é definido de acordo com o que é mais relevante para você.

Acessar o Meu Tela