Por dentro do Groq 3 LPX: acelerador de inferência de baixa latência para a plataforma Vera Rubin
NVIDIA Developer Blog: especificações técnicas do Groq 3 LPX — 315 PFLOPS, 128 GB SRAM, 40 PB/s de bandwidth on-chip por rack.
|
17/03 às 09:00
Pontos principais
- 500 MB de SRAM on-chip com 150 TB/s de bandwidth por LPU
- 96 links C2C a 112 Gbps cada, totalizando 2,5 TB/s bidirecionais
- Disaggregação atenção-FFN permite 35x mais throughput por megawatt
- Co-design com Vera Rubin NVL72 para arquitetura heterogênea de inferência
Mencionado nesta matéria
Pessoas
Jensen HuangIan Buck
Organizações
NvidiaGroq
Lugares
San Jose
