Google lança TurboQuant: 6x menos memória e 8x...

O Google Research publicou o TurboQuant, um framework de quantização que combina duas técnicas: PolarQuant, que converte vetores cartesianos em coordenadas polares eliminando overhead de normalização, e QJL (Quantized Johnson-Lindenstrauss), que reduz erros residuais a bits de sinal sem custo de memória.

O resultado é uma compressão de caches de key-value a 3 bits por valor — 6x menos memória e até 8x mais velocidade em GPUs H100, sem perda de precisão. O algoritmo foi validado em benchmarks como LongBench, Needle In A Haystack e RULER. A compressão é suficiente para rodar modelos potentes localmente em dispositivos como Mac Mini de 16GB ou smartphones.

Google lança TurboQuant: 6x menos memória e 8x mais velocidade em LLMs

Pontos principais

Fontes

TurboQuant do Google reduz requisitos de memória de cache de LLM em 6x

TurboQuant do Google reduz uso de memória em IA sem perder precisão

Leia também

TurboQuant do Google tende a aumentar demanda por chips de memória, não reduzi-la

Startups lançam modelos de IA ultra-compactos para rodar em dispositivos

Alibaba lança Qwen3.5-Omni com 215 recordes em benchmarks e supera Gemini 3.1 Pro

Anthropic lança computer use para Mac e Claude passa a operar o desktop

Alibaba lança Qwen 3.5 Medium com desempenho de Sonnet 4.5 em GPUs de consumidor

Comentários