AMD MI355X supera custo-benefício da Nvidia em inferência de IA

Testes mostram que o chip AMD MI355X oferece desempenho competitivo com custo até 2,75 vezes menor que as GPUs Blackwell da Nvidia.

04/07 às 17:46

Pontos principais

O modelo GLM-5.2 atingiu 2.626 tokens por segundo por nó em hardware AMD MI355X.
O desempenho alcançado representa 80% da performance de uma GPU Nvidia B200 em cargas de trabalho similares.
A infraestrutura da AMD demonstrou ser 2,75 vezes mais barata por GPU em comparação à série B300 da Nvidia.
O uso de quantização MXFP4 e otimizações no framework SGLang permitiu contornar limitações de software.
A lacuna de performance entre as plataformas está diminuindo com o uso de agentes de IA para otimização de kernels.
O custo por milhão de tokens no MI355X pode ser até 40% inferior ao da B200 em configurações específicas.

Novos benchmarks realizados pela Wafer indicam que a lacuna de desempenho entre as GPUs da AMD e da Nvidia está diminuindo, especialmente no cenário de inferência de modelos de fronteira como o GLM-5.2. Embora o ecossistema CUDA da Nvidia ainda mantenha vantagens em suporte de software 'dia-zero', a otimização manual e o uso de agentes de IA para ajustar kernels têm permitido que o hardware AMD Instinct MI355X entregue resultados competitivos a um custo significativamente menor.

Os testes destacam que, apesar de atingir cerca de 80% da performance bruta de uma B200, a eficiência econômica do MI355X é superior, com uma redução de custos que chega a 40% por milhão de tokens em certas configurações. Esse avanço sugere que a barreira de entrada para a adoção de hardware AMD em data centers de IA está sendo reduzida à medida que ferramentas de software, como o SGLang, passam a oferecer suporte mais robusto e otimizado para a arquitetura ROCm.

AMD MI355X supera custo-benefício da Nvidia em inferência de IA

Pontos principais

Fontes