Daily Journal

O Futuro da Informação

Pesquisadores criam 'Último Exame da Humanidade' para testar limites da IA

The Debrief: Detalha pontuações dos modelos no HLE, de 2,7% (GPT-4o) a 40-50% (Gemini 3.1 Pro e Claude Opus 4.6).

Daily Journal
|
14/03 às 09:00

Pontos principais

  • GPT-4o: 2,7%, Claude 3.5 Sonnet: 4,1%, o1: ~8%
  • Gemini 3.1 Pro e Claude Opus 4.6: 40-50%
  • Modelos ainda muito abaixo do desempenho humano especialista

Mencionado nesta matéria

Pessoas

Tung Nguyen

Organizações

Texas A&M UniversityOpenAIAnthropicGoogle DeepMind