DeepSeek V4: 1 trilhão de parâmetros, 1M de contexto e benchmarks de código
ABHS: Detalha a arquitetura MoE do DeepSeek V4 com janela de contexto de 1 milhão de tokens.
|
07/03 às 09:00
Pontos principais
- Arquitetura MoE com ~32B parâmetros ativos por token
- Capacidade multimodal nativa para texto, imagem e vídeo
Mencionado nesta matéria
Organizações
DeepSeekHuaweiCambricon
Lugares
China
