Nemotron 3 Super: modelo híbrido aberto Mamba-Transformer MoE para raciocínio agêntico
NVIDIA Technical Blog: detalhes técnicos da arquitetura, benchmarks e dados de treinamento do Nemotron 3 Super.
|
12/03 às 09:00
Pontos principais
- 120B parâmetros totais, 12B ativos com MoE latente
- 25 trilhões de tokens de pré-treinamento, 85,6% no PinchBench
- Janela nativa de 1M tokens com 91,75% no RULER@1M
Mencionado nesta matéria
Organizações
NVIDIAPerplexityPalantirCodeRabbitCadenceDassault SystèmesSiemens
