Visão geral
A Decodificação Especulativa (do inglês Speculative Decoding) é uma técnica de otimização de tempo de inferência para Grandes Modelos de Linguagem (LLMs) autorregressivos. O seu principal objetivo é mitigar a alta latência associada à geração sequencial de texto, onde cada token é gerado um por vez. Ao utilizar um modelo menor e mais rápido para "rascunhar" múltiplos tokens futuros e um modelo maior para verificá-los em paralelo, a técnica consegue acelerar a geração de texto em 2 a 3 vezes, mantendo a mesma qualidade de saída que seria obtida pelo modelo maior isoladamente.
Funcionamento técnico
A técnica baseia-se no fato de que a inferência de LLMs é frequentemente limitada pela largura de banda da memória (memory-bandwidth bound), e não apenas pelo poder de processamento aritmético. O processo divide-se em duas fases principais:
- Fase de Rascunho (Drafting): Um modelo menor e computacionalmente leve (o draft model) gera rapidamente uma sequência de K tokens candidatos. Como este modelo é menor, ele consegue prever sequências de forma muito mais célere que o modelo principal.
- Fase de Verificação (Verification): O modelo principal (o target model) processa todos os tokens rascunhados em uma única passagem paralela (forward pass). Através de um esquema de amostragem de rejeição, o modelo verifica se os tokens propostos são aceitáveis. Se um token for rejeitado, o modelo principal gera o token correto e o processo de rascunho é reiniciado a partir desse ponto.
Esta abordagem garante que a distribuição de probabilidade final seja idêntica à do modelo original, pois o modelo principal atua como o árbitro final da qualidade do texto.
Importância e adoção
A decodificação especulativa tornou-se um padrão na indústria de IA para reduzir custos operacionais e melhorar a experiência do usuário final em aplicações de baixa latência. A técnica é amplamente suportada por frameworks de inferência de código aberto, como vLLM, NVIDIA TensorRT-LLM e SGLang. Gigantes da tecnologia, como Google (utilizando-a no AI Overviews), AWS e Meta, integraram variantes desta técnica em seus sistemas de produção para otimizar o uso de GPUs, que frequentemente permanecem subutilizadas durante a geração de um único token.
Linha do tempo
- 2018: Publicação de pesquisas iniciais que estabeleceram as bases teóricas para a decodificação especulativa.
- 2023: A técnica ganha destaque acadêmico e prático com novos métodos de otimização, tornando-se uma solução viável para modelos de grande escala.
- 2024: A decodificação especulativa consolida-se como um padrão industrial, sendo integrada nativamente em frameworks populares de inferência.
- 2025: Amadurecimento da tecnologia com suporte nativo em hardware de alto desempenho, demonstrando acelerações superiores a 3x em GPUs modernas como a NVIDIA H200.
