Inteligência artificial enfrenta novo desafio com o lançamento do 'Último Exame da Humanidade'

Pesquisadores lançaram o "Último Exame da Humanidade" com 3.000 questões complexas. Modelos de IA, como Gemini 1.5 Pro, falharam, obtendo apenas 8,3% de acertos. O teste visa avaliar a inteligência geral da IA em áreas como filosofia e engenharia. Especialistas foram pagos entre US$ 500 e US$ 5 mil por perguntas selecionadas. Hendrycks espera que pontuações melhorem, superando 50% até o final do ano.

Quando a IA passar no big teste que está sendo preparado (Foto: Pixabay)

Ouvir a notícia:

0:00 / 0:00

Ouvir a notícia

Inteligência artificial enfrenta novo desafio com o lançamento do 'Último Exame da Humanidade' - Inteligência artificial enfrenta novo desafio com o lançamento do 'Último Exame da Humanidade'

0:000:00

Resumido 1 min Original 2 min Detalhado 3 min

Pesquisadores do Center for AI Safety e da Scale AI estão lançando um novo teste para avaliar a inteligência artificial, chamado “O Último Exame da Humanidade”. Este exame, criado por Dan Hendrycks, visa medir as capacidades de sistemas de IA em áreas complexas como filosofia e engenharia de foguetes, utilizando cerca de 3.000 questões elaboradas por especialistas. O teste surge em um contexto onde modelos de IA, como os da OpenAI e Google, têm se destacado em avaliações anteriores, levantando a questão se esses sistemas estão se tornando inteligentes demais para serem medidos.

Os desafios enfrentados pelos modelos de IA em testes padronizados têm levado à criação de avaliações mais rigorosas. O Humanity's Last Exam foi desenvolvido após um processo de filtragem em duas etapas, onde perguntas foram inicialmente testadas em modelos de IA. Apenas aquelas que não foram respondidas corretamente foram revisadas por especialistas humanos. Os autores das perguntas bem-sucedidas foram recompensados financeiramente, com valores variando entre US$ 500 e US$ 5 mil.

Hendrycks, que já havia criado o teste Massive Multitask Language Understanding (MMLU), se inspirou em uma conversa com Elon Musk, que criticou os testes existentes por serem muito fáceis. O novo exame busca avaliar a capacidade da IA em responder a questões complexas em diversas disciplinas, com o objetivo de fornecer uma medida de inteligência geral. Após a aplicação do teste a seis modelos de IA, o sistema o1 da OpenAI obteve a melhor pontuação, com apenas 8,3% de acertos.

Os pesquisadores acreditam que as pontuações podem aumentar rapidamente, possivelmente superando 50% até o final do ano. Hendrycks sugere que, nesse ponto, os sistemas de IA poderão ser considerados "oráculos de classe mundial". A irregularidade do progresso da IA é notável, com modelos demonstrando habilidades superiores em diagnósticos médicos e competições de matemática, mas ainda enfrentando dificuldades em tarefas simples.

Meu Tela

Descubra mais com asperguntas relacionadas

crie uma conta e explore as notícias de forma gratuita.acessar o meu tela

Perguntas Relacionadas

Participe da comunidadecomentando

Faça o login e comente as notícias de forma totalmente gratuita

No Portal Tela, você pode conferir comentários e opiniões de outros membros da comunidade.acessar o meu tela

Comentários

Os comentários não representam a opinião do Portal Tela;
a responsabilidade é do autor da mensagem.

Veja Mais

Inteligência Artificial

Inteligência artificial supera Teste de Turing em estudo da Universidade Cornell

Inteligência Artificial

Desafios dos testes de raciocínio em IA: por que os benchmarks falham em avaliar a inteligência real

Ilustração fotográfica mostrando um braço robótico puxando linhas de gráfico, ilustrando benchmarks de IA (Foto: Sarah Rogers/MITTR | Photos Getty)

Inteligência Artificial

Pesquisadores criticam a eficácia dos benchmarks na avaliação de modelos de inteligência artificial

Inteligência artificial enfrenta novo desafio com o lançamento do 'Último Exame da Humanidade'

Perguntas Relacionadas

Comentários

Veja Mais

Priorize os conteúdos mais relevantes para você

Experimente o Meu Tela