Tecnologia

Inteligência artificial enfrenta novo desafio com o lançamento do 'Último Exame da Humanidade'

Pesquisadores lançaram o "Último Exame da Humanidade" com 3.000 questões complexas. Modelos de IA, como Gemini 1.5 Pro, falharam, obtendo apenas 8,3% de acertos. O teste visa avaliar a inteligência geral da IA em áreas como filosofia e engenharia. Especialistas foram pagos entre US$ 500 e US$ 5 mil por perguntas selecionadas. Hendrycks espera que pontuações melhorem, superando 50% até o final do ano.

Quando a IA passar no big teste que está sendo preparado (Foto: Pixabay)

Quando a IA passar no big teste que está sendo preparado (Foto: Pixabay)

Ouvir a notícia

Inteligência artificial enfrenta novo desafio com o lançamento do 'Último Exame da Humanidade' - Inteligência artificial enfrenta novo desafio com o lançamento do 'Último Exame da Humanidade'

0:000:00

Pesquisadores do Center for AI Safety e da Scale AI estão lançando um novo teste para avaliar a inteligência artificial, chamado “O Último Exame da Humanidade”. Este exame, criado por Dan Hendrycks, visa medir as capacidades de sistemas de IA em áreas complexas como filosofia e engenharia de foguetes, utilizando cerca de 3.000 questões elaboradas por especialistas. O teste surge em um contexto onde modelos de IA, como os da OpenAI e Google, têm se destacado em avaliações anteriores, levantando a questão se esses sistemas estão se tornando inteligentes demais para serem medidos.

Os desafios enfrentados pelos modelos de IA em testes padronizados têm levado à criação de avaliações mais rigorosas. O Humanity's Last Exam foi desenvolvido após um processo de filtragem em duas etapas, onde perguntas foram inicialmente testadas em modelos de IA. Apenas aquelas que não foram respondidas corretamente foram revisadas por especialistas humanos. Os autores das perguntas bem-sucedidas foram recompensados financeiramente, com valores variando entre US$ 500 e US$ 5 mil.

Hendrycks, que já havia criado o teste Massive Multitask Language Understanding (MMLU), se inspirou em uma conversa com Elon Musk, que criticou os testes existentes por serem muito fáceis. O novo exame busca avaliar a capacidade da IA em responder a questões complexas em diversas disciplinas, com o objetivo de fornecer uma medida de inteligência geral. Após a aplicação do teste a seis modelos de IA, o sistema o1 da OpenAI obteve a melhor pontuação, com apenas 8,3% de acertos.

Os pesquisadores acreditam que as pontuações podem aumentar rapidamente, possivelmente superando 50% até o final do ano. Hendrycks sugere que, nesse ponto, os sistemas de IA poderão ser considerados "oráculos de classe mundial". A irregularidade do progresso da IA é notável, com modelos demonstrando habilidades superiores em diagnósticos médicos e competições de matemática, mas ainda enfrentando dificuldades em tarefas simples.

Meu Tela
Descubra mais com asperguntas relacionadas
crie uma conta e explore as notícias de forma gratuita.acessar o meu tela

Perguntas Relacionadas

Participe da comunidadecomentando
Faça o login e comente as notícias de forma totalmente gratuita
No Portal Tela, você pode conferir comentários e opiniões de outros membros da comunidade.acessar o meu tela

Comentários

Os comentários não representam a opinião do Portal Tela;
a responsabilidade é do autor da mensagem.

Meu Tela

Priorize os conteúdos mais relevantes para você

Experimente o Meu Tela

Crie sua conta e desbloqueie uma experiência personalizada.


No Meu Tela, o conteúdo é definido de acordo com o que é mais relevante para você.

Acessar o Meu Tela