Modelo MoE multimodal com janela de 1M tokens e custo até 89x menor que rivais ocidentais não foi compartilhado com Nvidia ou AMD.
O DeepSeek V4 deve ser lançado até 4 de março, marcando o primeiro grande modelo da empresa desde janeiro de 2025. Trata-se de um mixture-of-experts com aproximadamente 1 trilhão de parâmetros totais, geração multimodal nativa (texto, imagem, vídeo e áudio), janela de contexto de 1 milhão de tokens e arquitetura que inclui Multi-head Latent Attention, Sparse Attention e memória condicional Engram.
O DeepSeek rompeu com a prática padrão ao não compartilhar o V4 com Nvidia ou AMD, concedendo acesso antecipado exclusivamente a fornecedores domésticos como Huawei e Cambricon. A tentativa de treinar com chips Huawei Ascend enfrentou falhas de estabilidade e velocidade de interconexão, forçando reversão para hardware Nvidia no treinamento — mas a inferência foi otimizada para hardware chinês. Benchmarks vazados sugerem performance competitiva com modelos de fronteira a uma fração dos custos ocidentais.