Benchmark com 2.500 questões de quase mil especialistas de 50+ países mostra que Gemini 3.1 Pro e Claude Opus 4.6 ficam longe do nível humano.
O Humanity's Last Exam, publicado na Nature, reúne 2.500 questões criadas por quase mil especialistas de mais de 50 países em mais de 100 disciplinas — matemática, humanidades, ciências naturais e línguas antigas. Qualquer questão respondida corretamente por modelos de IA no momento da criação foi removida, garantindo que o exame mede lacunas genuínas de capacidade.
Os resultados revelam um abismo entre competência comercial e expertise profunda: enquanto GPT-4o acertou apenas 2,7% e o1 cerca de 8%, os modelos mais recentes — Gemini 3.1 Pro e Claude Opus 4.6 — alcançaram 40-50%, ainda muito abaixo do desempenho humano especialista.
7 mar, 09:00
7 mar, 09:00
6 mar, 09:00
5 mar, 09:00
1 mar, 13:19