O Futuro da Informação

Pesquisadores criam 'Último Exame da Humanidade' para testar limites da IA

The Debrief: Detalha pontuações dos modelos no HLE, de 2,7% (GPT-4o) a 40-50% (Gemini 3.1 Pro e Claude Opus 4.6).

|

14/03 às 09:00

Pontos principais

GPT-4o: 2,7%, Claude 3.5 Sonnet: 4,1%, o1: ~8%
Gemini 3.1 Pro e Claude Opus 4.6: 40-50%
Modelos ainda muito abaixo do desempenho humano especialista

Mencionado nesta matéria

Pessoas

Tung Nguyen

Organizações

Texas A&M UniversityOpenAIAnthropicGoogle DeepMind

Faz parte de

Humanity's Last Exam publicado na Nature: melhores modelos acertam só 40-50%

14 mar, 09:00 • Daily Journal • 2 fontes

Fonte

Ver matéria original

Thedebrief • 14 mar, 09:00