DeepSeek abre código do DSpark, que acelera a inferência dos modelos V4 em até 85%

Framework de decodificação especulativa reduz gargalos e dependência de chips em meio às restrições dos EUA; ganha 60-85% no V4 Flash.

29/06 às 09:00

Pontos principais

A DeepSeek lançou o DSpark, framework de decodificação especulativa para seus modelos de ponta V4, com ganho de velocidade por usuário de até 85%.
O DSpark usa um modelo-rascunho leve para propor tokens que um modelo maior verifica em lotes, com método semi-autorregressivo e escalonamento por confiança.
O ganho eleva a velocidade de geração em 60-85% no V4 Flash e 57-78% no V4 Pro, ante a base anterior MTP-1.
A empresa abriu o código completo do DeepSpec, com três algoritmos (DSpark, DFlash, Eagle3) e pipelines que abrangem Qwen3 e Gemma.
Os checkpoints se acoplam aos modelos V4 existentes: V4-Pro (1,6 trilhão de parâmetros, 49 bi ativados) e V4-Flash (284 bi, 13 bi ativados), ambos com contexto de 1 milhão de tokens.
O ganho reduz a dependência de infraestrutura de chips maior, em meio às restrições dos EUA a chips de IA.

A DeepSeek lançou o DSpark, um framework de decodificação especulativa para seus modelos de ponta V4 que, segundo a empresa, aumenta a velocidade de resposta por usuário em até 85%. A técnica usa um modelo-rascunho leve para propor tokens candidatos que um modelo maior verifica em lotes, soma um método semi-autorregressivo que gera pequenos blocos de tokens de uma vez e um sistema de escalonamento baseado em confiança, que ajusta o nível de verificação conforme a demanda de computação.

A empresa abriu o código completo do DeepSpec, com três algoritmos de modelo-rascunho (DSpark, DFlash, Eagle3), além de pipelines de preparação de dados, treinamento e avaliação que também abrangem as famílias Qwen3 e Gemma. Os números: o DSpark eleva a velocidade de geração em 60% a 85% no V4 Flash e em 57% a 78% no V4 Pro, ante a base anterior MTP-1, e melhora o comprimento médio de aceitação de 26,7% a 30,9% sobre o Eagle3 em modelos Qwen3 nas escalas de 4B, 8B e 14B.

Os checkpoints do DSpark se acoplam aos modelos de prévia já existentes — V4-Pro (1,6 trilhão de parâmetros, 49 bilhões ativados) e V4-Flash (284 bilhões, 13 bilhões ativados), ambos com contexto de 1 milhão de tokens — em vez de constituírem um novo modelo base. O ganho de eficiência reduz gargalos de inferência e a dependência de infraestrutura de chips maior, em meio às restrições dos EUA a chips de IA.

Fontes

deepseek-ai/DeepSeek-V4-Flash-DSpark

Huggingface • 29 jun, 09:00

DeepSeek abre o código do DeepSpec, pilha de decodificação especulativa

Aiweekly • 29 jun, 09:00

IA mais rápida, custos menores: DSpark alivia gargalos de inferência e pressão sobre chips, diz a DeepSeek

South China Morning Post • 29 jun, 09:00

Comentários

Carregando comentários...

Pontos principais

A DeepSeek lançou o DSpark, framework de decodificação especulativa para seus modelos de ponta V4, com ganho de velocidade por usuário de até 85%.

O DSpark usa um modelo-rascunho leve para propor tokens que um modelo maior verifica em lotes, com método semi-autorregressivo e escalonamento por confiança.

O ganho eleva a velocidade de geração em 60-85% no V4 Flash e 57-78% no V4 Pro, ante a base anterior MTP-1.

A empresa abriu o código completo do DeepSpec, com três algoritmos (DSpark, DFlash, Eagle3) e pipelines que abrangem Qwen3 e Gemma.

Os checkpoints se acoplam aos modelos V4 existentes: V4-Pro (1,6 trilhão de parâmetros, 49 bi ativados) e V4-Flash (284 bi, 13 bi ativados), ambos com contexto de 1 milhão de tokens.

O ganho reduz a dependência de infraestrutura de chips maior, em meio às restrições dos EUA a chips de IA.

DeepSeek abre código do DSpark, que acelera a inferência dos modelos V4 em até 85%

Pontos principais

Fontes

deepseek-ai/DeepSeek-V4-Flash-DSpark

DeepSeek abre o código do DeepSpec, pilha de decodificação especulativa

IA mais rápida, custos menores: DSpark alivia gargalos de inferência e pressão sobre chips, diz a DeepSeek

Leia também

DeepSeek lança DSpark para acelerar inferência de IA em até 85%

DeepSeek lança V4-Pro e V4-Flash, maiores modelos de código aberto até hoje

DeepSeek adia V4 para garantir compatibilidade com chips Huawei, excluindo NVIDIA e AMD

DeepSeek V4 entrega 1 trilhão de parâmetros a 1/20 do custo do GPT-5

DeepSeek V4 lança na próxima semana: modelo de 1 trilhão de parâmetros otimizado para chips chineses

Comentários

DeepSeek abre código do DSpark, que acelera a inferência dos modelos V4 em até 85%

Pontos principais

Fontes

deepseek-ai/DeepSeek-V4-Flash-DSpark

DeepSeek abre o código do DeepSpec, pilha de decodificação especulativa

IA mais rápida, custos menores: DSpark alivia gargalos de inferência e pressão sobre chips, diz a DeepSeek

Leia também

DeepSeek lança DSpark para acelerar inferência de IA em até 85%

DeepSeek lança V4-Pro e V4-Flash, maiores modelos de código aberto até hoje

DeepSeek adia V4 para garantir compatibilidade com chips Huawei, excluindo NVIDIA e AMD

DeepSeek V4 entrega 1 trilhão de parâmetros a 1/20 do custo do GPT-5

DeepSeek V4 lança na próxima semana: modelo de 1 trilhão de parâmetros otimizado para chips chineses

Comentários