O Futuro da Informação

Nemotron 3 Super: modelo híbrido aberto Mamba-Transformer MoE para raciocínio agêntico

NVIDIA Technical Blog: detalhes técnicos da arquitetura, benchmarks e dados de treinamento do Nemotron 3 Super.

|

12/03 às 09:00

Pontos principais

120B parâmetros totais, 12B ativos com MoE latente
25 trilhões de tokens de pré-treinamento, 85,6% no PinchBench
Janela nativa de 1M tokens com 91,75% no RULER@1M

Mencionado nesta matéria

Organizações

NVIDIAPerplexityPalantirCodeRabbitCadenceDassault SystèmesSiemens

Faz parte de

Nvidia libera Nemotron 3 Super, modelo aberto de 120B para sistemas multi-agente

12 mar, 09:00 • Daily Journal • 2 fontes

Fonte

Ver matéria original

Developer Nvidia • 12 mar, 09:00