TurboQuant do Google reduz requisitos de memória de cache de LLM em 6x
Tom's Hardware: destaca a viabilidade de rodar modelos grandes em dispositivos de consumo como Mac Mini de 16GB.
|
26/03 às 09:00
Pontos principais
- Compressão permite modelos potentes em dispositivos de consumo
- Até 8x de ganho de performance em GPUs NVIDIA H100
Mencionado nesta matéria
Organizações
Google ResearchNVIDIA
