Mercury 2 atinge 1.009 tokens por segundo em GPUs Blackwell via geração paralela em vez de decodificação autorregressiva, a $0,25/M tokens de entrada.
A Inception Labs lançou o Mercury 2, o primeiro modelo de raciocínio linguístico comercial construído sobre difusão em vez de decodificação autorregressiva. Em vez de gerar tokens sequencialmente (um de cada vez, da esquerda para a direita), o Mercury 2 produz respostas por refinamento paralelo — gerando múltiplos tokens simultaneamente e convergindo em poucos passos.
O resultado é velocidade de 1.009 tokens por segundo em GPUs Nvidia Blackwell, mais de 5x mais rápido que os modelos otimizados para velocidade existentes, a $0,25 por milhão de tokens de entrada. A vantagem de velocidade vem da arquitetura do modelo, não de otimizações de hardware, e permite corrigir erros no meio da geração.