DeepSeek V4: análise da arquitetura MoE de 1T parâmetros e upgrades principais
Apiyi: análise técnica do V4 com ~1T de parâmetros, janela de 1M tokens e três inovações arquiteturais.
|
03/04 às 09:00
Pontos principais
- ~1 trilhão de parâmetros MoE com 32-37B ativos por token
- Janela de contexto de 1 milhão de tokens
- 97% de acurácia needle-in-a-haystack a 1M tokens
- V4 Lite (~200B) lançado em 9 de março como validação
Mencionado nesta matéria
Organizações
DeepSeekHuaweiNVIDIAAMDAlibabaByteDanceTencentCambricon Technologies
Lugares
China
