- O campo da inteligência artificial (IA) teve avanços recentes com o lançamento do modelo Gemini 2.5 Flash Image, também chamado de Nano Banana, e dos primeiros modelos internos da Microsoft, o MAI.
- Sete novos benchmarks foram introduzidos, incluindo o MCP-Bench, que avalia a capacidade de realizar tarefas complexas, e o ReportBench, que foca na redação de pesquisas acadêmicas.
- Outros benchmarks, como CMPhysBench e AetherCode, testam conhecimentos em física e programação competitiva.
- Esses benchmarks buscam avaliar se os modelos podem navegar fluxos de trabalho, respeitar a privacidade e demonstrar raciocínio em diferentes contextos.
- O UQ desafia os modelos com perguntas não resolvidas, enquanto o SCIREAS investiga o raciocínio científico, separando conhecimento de habilidade.
Recentemente, o campo da inteligência artificial (IA) passou por um período de intensa atividade, especialmente no que diz respeito a novos benchmarks e modelos. A semana destacou o lançamento do Gemini 2.5 Flash Image, também conhecido como Nano Banana, e a introdução dos primeiros modelos internos da Microsoft, o MAI, que promete treinamento eficiente e fala natural.
A inovação não se limitou apenas a novos modelos. Sete benchmarks foram apresentados, refletindo uma mudança significativa na avaliação de competências em IA. O MCP-Bench avalia a capacidade de agentes em realizar tarefas complexas, enquanto o ReportBench foca na habilidade de redigir pesquisas acadêmicas. Outros benchmarks, como CMPhysBench e AetherCode, testam o conhecimento em física e programação competitiva, respectivamente.
Esses novos critérios de avaliação buscam ir além das simples pontuações em testes fixos. Eles questionam se os modelos podem navegar fluxos de trabalho, respeitar a privacidade e demonstrar raciocínio em diferentes modalidades. O UQ desafia os modelos com perguntas não resolvidas, enquanto o SCIREAS investiga a capacidade de raciocínio científico dos modelos, separando conhecimento de habilidade.
Esses desenvolvimentos marcam uma nova era na avaliação de IA, onde a escolha dos benchmarks pode ser tão impactante quanto os próprios modelos. A expectativa é que mais inovações e avaliações surjam, moldando o futuro da inteligência artificial.
Entre na conversa da comunidade