DeepSeek V4 deve ser lançado até 4 de março co...

O DeepSeek V4 deve ser lançado até 4 de março, marcando o primeiro grande modelo da empresa desde janeiro de 2025. Trata-se de um mixture-of-experts com aproximadamente 1 trilhão de parâmetros totais, geração multimodal nativa (texto, imagem, vídeo e áudio), janela de contexto de 1 milhão de tokens e arquitetura que inclui Multi-head Latent Attention, Sparse Attention e memória condicional Engram.

O DeepSeek rompeu com a prática padrão ao não compartilhar o V4 com Nvidia ou AMD, concedendo acesso antecipado exclusivamente a fornecedores domésticos como Huawei e Cambricon. A tentativa de treinar com chips Huawei Ascend enfrentou falhas de estabilidade e velocidade de interconexão, forçando reversão para hardware Nvidia no treinamento — mas a inferência foi otimizada para hardware chinês. Benchmarks vazados sugerem performance competitiva com modelos de fronteira a uma fração dos custos ocidentais.

DeepSeek V4 deve ser lançado até 4 de março com 1 trilhão de parâmetros e otimização para chips chineses

Pontos principais

Fontes

DeepSeek lança modelo de IA aguardado para desafiar o ChatGPT

Próximo passo do DeepSeek: como será o V4

DeepSeek planeja lançar modelo multimodal V4 esta semana, dizem fontes

Leia também

DeepSeek lança modelo de IA V4 otimizado para chips Huawei

DeepSeek lança novos modelos de IA e intensifica disputa tecnológica com EUA

DeepSeek adia V4 para garantir compatibilidade com chips Huawei, excluindo NVIDIA e AMD

DeepSeek V4 entrega 1 trilhão de parâmetros a 1/20 do custo do GPT-5

DeepSeek V4 lança na próxima semana: modelo de 1 trilhão de parâmetros otimizado para chips chineses

Comentários