Framework comprime caches de key-value a 3 bits sem perda de precisão, viabilizando modelos potentes em dispositivos de 16GB.
O Google Research publicou o TurboQuant, um framework de quantização que combina duas técnicas: PolarQuant, que converte vetores cartesianos em coordenadas polares eliminando overhead de normalização, e QJL (Quantized Johnson-Lindenstrauss), que reduz erros residuais a bits de sinal sem custo de memória.
O resultado é uma compressão de caches de key-value a 3 bits por valor — 6x menos memória e até 8x mais velocidade em GPUs H100, sem perda de precisão. O algoritmo foi validado em benchmarks como LongBench, Needle In A Haystack e RULER. A compressão é suficiente para rodar modelos potentes localmente em dispositivos como Mac Mini de 16GB ou smartphones.
24 mar, 09:00
16 mar, 09:00
12 mar, 09:00
1 mar, 13:19
26 fev, 18:39