OpenAI lança o3, líder em nova tabela de inteligência artificial para ciência

O modelo o3, da OpenAI, foi classificado como o melhor em responder perguntas científicas, segundo o SciArena.
A avaliação envolveu 23 modelos de linguagem e o feedback de 102 pesquisadores.
O o3 se destacou em ciências naturais, saúde, engenharia e ciências humanas, recebendo mais de 13 mil votos.
O segundo lugar foi ocupado pelo modelo DeepSeek-R1 e o terceiro pelo Gemini-2.5-Pro, do Google.
O SciArena permite que pesquisadores façam perguntas e votem nas respostas, ajudando na atualização sobre literatura científica.

Modelos de inteligência artificial (IA) têm se destacado na resposta a perguntas científicas, com o SciArena avaliando seu desempenho. Recentemente, o modelo o3, desenvolvido pela OpenAI, foi classificado como o melhor em diversas áreas científicas, segundo a plataforma lançada pelo Allen Institute for Artificial Intelligence (Ai2).

O SciArena avaliou 23 modelos de linguagem, com base nas respostas a perguntas científicas, utilizando feedback de 102 pesquisadores. O o3 se destacou em áreas como ciências naturais, saúde, engenharia e ciências humanas, recebendo mais de 13 mil votos. O segundo lugar foi ocupado pelo DeepSeek-R1, que se destacou em ciências naturais e engenharia, enquanto o Gemini-2.5-Pro, do Google, ficou em terceiro nas ciências naturais e quinto em saúde.

A preferência dos usuários pelo o3 pode ser atribuída à sua capacidade de fornecer respostas detalhadas e tecnicamente precisas. Arman Cohan, pesquisador do Ai2, destaca que a variação no desempenho dos modelos é complexa, pois muitos são proprietários e suas diferenças podem estar relacionadas a dados de treinamento e otimizações específicas.

Avaliação e Acesso

O SciArena é uma das primeiras plataformas a classificar o desempenho de modelos de IA em tarefas científicas, utilizando feedback colaborativo. Os pesquisadores enviaram perguntas científicas e receberam respostas de dois modelos aleatórios, que foram avaliadas com base em referências do Semantic Scholar, outra ferramenta de pesquisa da Ai2. A plataforma está disponível publicamente, permitindo que usuários façam perguntas e votem nas respostas, com a contagem de votos restrita a usuários verificados.

Essa iniciativa promete ajudar pesquisadores a se manterem atualizados com a literatura científica, facilitando a descoberta de trabalhos relevantes. Jonathan Kummerfeld, pesquisador da Universidade de Sydney, afirma que a capacidade de questionar modelos de IA sobre tópicos científicos é um avanço significativo para a pesquisa.