Como o Dynamo 1.0 da Nvidia potencializa inferência multi-nó em escala de produção
NVIDIA Developer Blog: detalhamento técnico do Dynamo 1.0 mostrando boost de 7x no throughput das Blackwell via serving desagregado.
|
17/03 às 09:00
Pontos principais
- Boost de até 7x no throughput em GPUs Blackwell no benchmark SemiAnalysis InferenceX
- Integração nativa com frameworks open-source: LangChain, SGLang, vLLM
- Serving desagregado de encode/prefill/decode e paralelismo amplo de experts
Mencionado nesta matéria
Pessoas
Jensen Huang
Organizações
NvidiaAWSMicrosoftGoogle CloudAdobeSalesforceSAPServiceNowCrowdStrikeCursorPerplexityLangChainPayPal
Lugares
San Jose
