Algoritmo reduz KV cache de LLMs em pelo menos 6x sem perda de precisão; Micron caiu 15% na semana, SK Hynix -6%, Samsung -5%.
O Google Research publicou o TurboQuant, algoritmo de compressão em dois estágios que reduz o KV cache de inferência de LLMs em pelo menos 6x sem perda de acurácia, alcançando precisão de 3 bits e até 8x mais velocidade em operações de atenção em GPUs H100 da NVIDIA — sem necessidade de retreinar modelos.
O impacto no mercado foi imediato: ações de chips de memória perderam ~$100 bilhões em valor na semana, lideradas por Micron (-15%), SK Hynix (-6%) e Samsung (-5%). O temor de redução na demanda por memória HBM para IA provocou vendas em cadeia. Analistas contrapõem invocando o Paradoxo de Jevons — ganhos de eficiência podem aumentar a demanda total via adoção mais ampla. O paper será apresentado na ICLR 2026.
Digitaltoday Co Kr • 28 mar, 09:00
Ft • 28 mar, 09:00
Finance Biggo • 28 mar, 09:00
9 mar, 09:00
27 fev, 12:30
27 fev, 12:29
26 fev, 18:39
25 fev, 06:00