Microsoft lança MAI-Thinking-1, primeiro grande modelo de raciocínio treinado do zero pela empresa

Modelo MoE de 35B ativos e 1T totais foi treinado em 30 trilhões de tokens sem destilação; bate Claude Opus 4.6 em SWE-Bench Pro.

03/06 às 09:00

Pontos principais

Arquitetura MoE com 35 bilhões de parâmetros ativos e 1 trilhão totais
Janela de contexto de 256 mil tokens
Treinado em 30 trilhões de tokens em 8 mil GPUs GB200 da Nvidia
Sem destilação de terceiros e sem texto gerado por IA no pré-treino
Empata com Claude Opus 4.6 no SWE-Bench Pro (52,8%) e marca 97,0% no AIME 2025
Avaliadores humanos da Surge preferem o modelo ao Claude Sonnet 4.6 em testes cegos

A Microsoft estreou na conferência Build 2026, em Seattle, seu primeiro grande modelo de raciocínio construído inteiramente pela empresa, o MAI-Thinking-1. A arquitetura mistura-de-especialistas (MoE) tem 35 bilhões de parâmetros ativos por inferência e 1 trilhão de parâmetros totais, com janela de contexto de 256 mil tokens.

O treinamento usou 30 trilhões de tokens em um cluster de 8 mil GPUs GB200 da Nvidia operado pela própria Azure. A empresa diz não ter usado destilação de modelos de terceiros nem incluído texto gerado por IA no pré-treino. Em benchmarks, o modelo marcou 52,8% no SWE-Bench Pro (empatando com o Claude Opus 4.6 da Anthropic), 97,0% no AIME 2025 e 87,7% no LiveCodeBench v6. Em avaliações cegas conduzidas pela firma Surge, anotadores humanos preferiram o MAI-Thinking-1 ao Claude Sonnet 4.6 em tarefas de turno único e múltiplo. O modelo é parte de uma família de sete modelos internos anunciados na Build.

Microsoft lança MAI-Thinking-1, primeiro grande modelo de raciocínio treinado do zero pela empresa

Pontos principais

Fontes

Apresentando o MAI-Thinking-1

Leia também

Startup de Mira Murati lança modelo de IA inspirado em tecnologia chinesa

Startup de ex-executivos da OpenAI lança modelo de IA Inkling

Microsoft substitui modelos de IA de parceiros por tecnologia própria

Meta lança Muse Spark, primeiro modelo do Superintelligence Labs sob Alexandr Wang

Microsoft lança três modelos próprios de IA: transcrição, voz e imagem

Comentários