Modelo mixture-of-experts com 1M tokens de contexto e geração multimodal nativa, otimizado para Huawei Ascend e Cambricon em vez de Nvidia.
O DeepSeek V4 será lançado na próxima semana, segundo o Financial Times — um modelo mixture-of-experts de um trilhão de parâmetros com janela de contexto de um milhão de tokens e geração multimodal nativa em texto, imagem, vídeo e áudio. O modelo usa arquitetura MoE com ~32 bilhões de parâmetros ativos por token, sendo mais barato por token que o V3 apesar do tamanho maior.
O detalhe mais significativo é que o V4 foi otimizado desde a base para chips Huawei Ascend e Cambricon, excluindo intencionalmente Nvidia e AMD dos testes pré-lançamento. Benchmarks vazados sugerem 90% no HumanEval e 80%+ no SWE-bench a uma fração dos custos de inferência ocidentais.
Deirdre Bosa, da CNBC, alertou que 'o próximo choque de IA da China é hardware.' As restrições de exportação dos EUA não frearam o desenvolvimento de IA da China — forçaram a China a construir sua própria pilha inteira, bifurcando a cadeia global de suprimentos de IA.
X • 28 fev, 09:00
X • 28 fev, 09:00
Evolink • 1 mar, 09:00