O Futuro da Informação

TurboQuant do Google reduz requisitos de memória de cache de LLM em 6x

Tom's Hardware: destaca a viabilidade de rodar modelos grandes em dispositivos de consumo como Mac Mini de 16GB.

|

26/03 às 09:00

Pontos principais

Compressão permite modelos potentes em dispositivos de consumo
Até 8x de ganho de performance em GPUs NVIDIA H100

Mencionado nesta matéria

Organizações

Google ResearchNVIDIA

Fonte

Ver matéria original

Tomshardware • 26 mar, 09:00