Pesquisadores criam 'Último Exame da Humanidade' para testar limites da IA
The Debrief: Detalha pontuações dos modelos no HLE, de 2,7% (GPT-4o) a 40-50% (Gemini 3.1 Pro e Claude Opus 4.6).
|
14/03 às 09:00
Pontos principais
- GPT-4o: 2,7%, Claude 3.5 Sonnet: 4,1%, o1: ~8%
- Gemini 3.1 Pro e Claude Opus 4.6: 40-50%
- Modelos ainda muito abaixo do desempenho humano especialista
Mencionado nesta matéria
Pessoas
Tung Nguyen
Organizações
Texas A&M UniversityOpenAIAnthropicGoogle DeepMind
