Modelo MoE de 35B ativos e 1T totais foi treinado em 30 trilhões de tokens sem destilação; bate Claude Opus 4.6 em SWE-Bench Pro.
A Microsoft estreou na conferência Build 2026, em Seattle, seu primeiro grande modelo de raciocínio construído inteiramente pela empresa, o MAI-Thinking-1. A arquitetura mistura-de-especialistas (MoE) tem 35 bilhões de parâmetros ativos por inferência e 1 trilhão de parâmetros totais, com janela de contexto de 256 mil tokens.
O treinamento usou 30 trilhões de tokens em um cluster de 8 mil GPUs GB200 da Nvidia operado pela própria Azure. A empresa diz não ter usado destilação de modelos de terceiros nem incluído texto gerado por IA no pré-treino. Em benchmarks, o modelo marcou 52,8% no SWE-Bench Pro (empatando com o Claude Opus 4.6 da Anthropic), 97,0% no AIME 2025 e 87,7% no LiveCodeBench v6. Em avaliações cegas conduzidas pela firma Surge, anotadores humanos preferiram o MAI-Thinking-1 ao Claude Sonnet 4.6 em tarefas de turno único e múltiplo. O modelo é parte de uma família de sete modelos internos anunciados na Build.
2 jun, 14:05
11 mai, 19:14
9 abr, 09:00
3 abr, 09:00
5 mar, 09:00
Carregando comentários...