Daily Journal

O Futuro da Informação

Nemotron 3 Super: modelo híbrido aberto Mamba-Transformer MoE para raciocínio agêntico

NVIDIA Technical Blog: detalhes técnicos da arquitetura, benchmarks e dados de treinamento do Nemotron 3 Super.

Daily Journal
|
12/03 às 09:00

Pontos principais

  • 120B parâmetros totais, 12B ativos com MoE latente
  • 25 trilhões de tokens de pré-treinamento, 85,6% no PinchBench
  • Janela nativa de 1M tokens com 91,75% no RULER@1M

Mencionado nesta matéria

Organizações

NVIDIAPerplexityPalantirCodeRabbitCadenceDassault SystèmesSiemens