Humanity's Last Exam publicado na Nature: melh...

O Humanity's Last Exam, publicado na Nature, reúne 2.500 questões criadas por quase mil especialistas de mais de 50 países em mais de 100 disciplinas — matemática, humanidades, ciências naturais e línguas antigas. Qualquer questão respondida corretamente por modelos de IA no momento da criação foi removida, garantindo que o exame mede lacunas genuínas de capacidade.

Os resultados revelam um abismo entre competência comercial e expertise profunda: enquanto GPT-4o acertou apenas 2,7% e o1 cerca de 8%, os modelos mais recentes — Gemini 3.1 Pro e Claude Opus 4.6 — alcançaram 40-50%, ainda muito abaixo do desempenho humano especialista.

Humanity's Last Exam publicado na Nature: melhores modelos acertam só 40-50%

Pontos principais

Fontes

Pesquisadores criam 'Último Exame da Humanidade' para testar limites da IA

Benchmark de questões acadêmicas de nível especialista para avaliar capacidades de IA

Leia também

OpenAI lança GPT-5.5 com 82,7% no Terminal-Bench, mas fica atrás do Opus 4.7 em bugs reais

Vazamento expõe Claude Mythos da Anthropic com capacidades inéditas em cibersegurança

Claude Opus 4.6 sustenta trabalho autônomo por 14,5h; Anthropic mapeia impacto no mercado de trabalho

OpenAI lança GPT-5.4 com uso nativo de computadores e janela de 1M de tokens

DeepSeek V4 lança na próxima semana: modelo de 1 trilhão de parâmetros otimizado para chips chineses

Comentários