Framework de decodificação especulativa reduz gargalos e dependência de chips em meio às restrições dos EUA; ganha 60-85% no V4 Flash.
A DeepSeek lançou o DSpark, um framework de decodificação especulativa para seus modelos de ponta V4 que, segundo a empresa, aumenta a velocidade de resposta por usuário em até 85%. A técnica usa um modelo-rascunho leve para propor tokens candidatos que um modelo maior verifica em lotes, soma um método semi-autorregressivo que gera pequenos blocos de tokens de uma vez e um sistema de escalonamento baseado em confiança, que ajusta o nível de verificação conforme a demanda de computação.
A empresa abriu o código completo do DeepSpec, com três algoritmos de modelo-rascunho (DSpark, DFlash, Eagle3), além de pipelines de preparação de dados, treinamento e avaliação que também abrangem as famílias Qwen3 e Gemma. Os números: o DSpark eleva a velocidade de geração em 60% a 85% no V4 Flash e em 57% a 78% no V4 Pro, ante a base anterior MTP-1, e melhora o comprimento médio de aceitação de 26,7% a 30,9% sobre o Eagle3 em modelos Qwen3 nas escalas de 4B, 8B e 14B.
Os checkpoints do DSpark se acoplam aos modelos de prévia já existentes — V4-Pro (1,6 trilhão de parâmetros, 49 bilhões ativados) e V4-Flash (284 bilhões, 13 bilhões ativados), ambos com contexto de 1 milhão de tokens — em vez de constituírem um novo modelo base. O ganho de eficiência reduz gargalos de inferência e a dependência de infraestrutura de chips maior, em meio às restrições dos EUA a chips de IA.
Huggingface • 29 jun, 09:00
Aiweekly • 29 jun, 09:00
South China Morning Post • 29 jun, 09:00
29 jun, 01:31
24 abr, 09:00
3 abr, 09:00
7 mar, 09:00
1 mar, 13:19
Carregando comentários...