Inception Labs lança Mercury 2, primeiro model...

A Inception Labs lançou o Mercury 2, o primeiro modelo de raciocínio linguístico comercial construído sobre difusão em vez de decodificação autorregressiva. Em vez de gerar tokens sequencialmente (um de cada vez, da esquerda para a direita), o Mercury 2 produz respostas por refinamento paralelo — gerando múltiplos tokens simultaneamente e convergindo em poucos passos.

O resultado é velocidade de 1.009 tokens por segundo em GPUs Nvidia Blackwell, mais de 5x mais rápido que os modelos otimizados para velocidade existentes, a $0,25 por milhão de tokens de entrada. A vantagem de velocidade vem da arquitetura do modelo, não de otimizações de hardware, e permite corrigir erros no meio da geração.

Inception Labs lança Mercury 2, primeiro modelo de raciocínio baseado em difusão

Pontos principais

Fontes

Inception lança Mercury 2, o LLM de raciocínio mais rápido — 5x mais rápido que LLMs otimizados para velocidade

Apresentando Mercury 2 — o LLM de raciocínio mais rápido do mundo

Leia também

Arm lança AGI CPU de 136 núcleos, seu primeiro chip para venda direta

Musk lança TERAFAB, fábrica de chips de $25bi que rivalizaria com 70% da TSMC

Nvidia revela GPU Vera Rubin na GTC e projeta $1 trilhão em pedidos de chips

Intel anuncia Core Ultra 200S Plus: 24 núcleos a $300 para competir com AMD

DeepSeek V4 lança na próxima semana: modelo de 1 trilhão de parâmetros otimizado para chips chineses

Comentários