Atualização do laboratório chinês mira agentes de código em múltiplos frameworks; empresa apresenta novo benchmark próprio, o VIBE.
A MiniMax, laboratório chinês, lançou hoje o MiniMax-M2.1, atualização do M2 focada em programação em diferentes linguagens. Em comunicado, a empresa afirma que o modelo 'supera o Claude Sonnet 4.5 e se aproxima do Claude Opus 4.5'.
O MiniMax-M2.1 foi avaliado no SWE-bench Verified em diferentes frameworks de agentes de código, com o que a empresa descreve como 'generalização excepcional entre frameworks e estabilidade robusta'. A MiniMax também introduziu um benchmark próprio, o VIBE (Visual & Interactive Benchmark for Execution), com cinco subsets — Web, Simulação, Android, iOS, Backend — e usa o paradigma 'Agent-as-a-Verifier' para avaliar lógica interativa e estética visual em ambiente real. O modelo marcou média 88,6, com destaque para VIBE-Web (91,5) e VIBE-Android (89,7).
1 jun, 09:00
27 mai, 17:04
11 mai, 09:00
13 abr, 09:00
19 mar, 09:00
Carregando comentários...