How GPT-5, Claude, and Gemini are actually trained and served

Neste vídeo, Reiner Pope, CEO da MatX e ex-arquiteto de TPU no Google, apresenta uma aula detalhada sobre a arquitetura de modelos de IA e infraestrutura de ML. Utilizando um quadro branco, ele explica como os modelos GPT-5, Claude e Gemini são treinados e servidos, focando em conceitos como tamanho de lote, cache KV, paralelismo e implicações de custo e latência. O objetivo é desmistificar o funcionamento da IA e suas arquiteturas, preços de API e progresso.

Análise de Latência e Custo

Pope inicia a discussão abordando a questão de por que pagar mais pode resultar em menor latência em serviços de IA, como o "Fast Mode" de Claude. A principal conclusão é que o tamanho do lote (batch size) é o fator mais significativo. Ele utiliza uma análise de roofline para quantificar o impacto do tamanho do lote na latência e no custo, considerando um cluster Blackwell NVL72 (72 GPUs).

Fatores Determinantes

Tempo de Computação (t_compute): Proporcional ao tamanho do lote e ao número de parâmetros ativos, dividido pela capacidade de FLOPs do chip. É linear em relação ao tamanho do lote.
Tempo de Busca de Memória (t_memory): Composto por:
- Busca de Pesos (weight fetch): Tempo para carregar todos os parâmetros do modelo. É uma constante.
- Busca do Cache KV (KV cache fetch): Tempo para carregar o contexto de cada token no lote. É linear em relação ao tamanho do lote e ao comprimento do contexto.

O cache KV é uma representação interna que o modelo produz dos tokens passados, essencial para o mecanismo de atenção durante a decodificação autoregressiva. A atenção é dominada por buscas de memória, não por multiplicações de matrizes.

Relação Latência vs. Tamanho do Lote

A latência total é o máximo entre o tempo de computação e o tempo de busca de memória.
Inicialmente, a latência tem uma dependência fraca do tamanho do lote, com um limite inferior determinado pelo tempo necessário para ler todos os parâmetros da memória.
À medida que o tamanho do lote aumenta, o tempo de computação se torna dominante, e a latência aumenta linearmente.
A escassez (sparsity) do modelo (relação entre parâmetros ativos e totais) influencia o ponto de equilíbrio entre computação e memória. Modelos esparsos exigem mais memória, mas menos computação por token ativo.

Relação Custo por Token vs. Tamanho do Lote

O custo por token é calculado como o tempo total dividido pelo tamanho do lote (t/B).
Com um tamanho de lote pequeno (ex: 1), o custo é muito alto devido à não amortização das buscas de pesos.
À medida que o tamanho do lote aumenta, o custo das buscas de pesos é amortizado, e o custo por token diminui drasticamente, tendendo a um limite inferior determinado pelo tempo de computação.
Implicação: Serviços como "Slow Mode" não seriam significativamente mais baratos, pois o custo por token já atinge um limite inferior com lotes grandes.

Tamanho Ótimo do Lote

O tamanho de lote ideal, onde o tempo de memória e o tempo de computação se equivalem, é aproximadamente 300 vezes a esparsidade do modelo.
Para um modelo como DeepSeek (esparsidade de 8), isso resulta em cerca de 2.400 sequências por lote. Na prática, as empresas usam lotes um pouco maiores (2.000 a 3.000 tokens por lote) para compensar ineficiências do mundo real.
Isso se traduz em cerca de 128.000 tokens por segundo por sistema, o que representa cerca de um milésimo do tráfego global de modelos como Gemini.

Paralelismo e Limitações de Hardware

Pope discute como o paralelismo é implementado em racks de GPUs e suas implicações para a escalabilidade de modelos.

Paralelismo de Especialistas (Expert Parallelism)

Em arquiteturas Mixture of Experts (MoE), diferentes especialistas são alocados em diferentes GPUs (ex: 4 especialistas por GPU em um rack Blackwell de 72 GPUs).
O roteador de tokens distribui as requisições para os especialistas, resultando em um padrão de comunicação all-to-all dentro do rack.
Racks Nvidia Blackwell são otimizados para esse padrão de comunicação via NVLink (rede scale-up), que é muito mais rápido do que a comunicação entre racks (rede scale-out, cerca de 8x mais lenta).
Limitação: A comunicação entre racks se torna um gargalo significativo, restringindo o tamanho de uma camada de especialistas a um único rack.

Paralelismo de Pipeline (Pipeline Parallelism)

Divide as camadas do modelo entre diferentes racks (ex: uma camada por rack).
Benefício: Reduz a necessidade de capacidade de memória por rack, pois cada rack armazena apenas uma fração do modelo.
Custo: Introduz latência de comunicação entre racks (alguns milissegundos por hop), que se acumula sequencialmente.
Micro-batches: No treinamento, o paralelismo de pipeline exige o uso de micro-batches para evitar bolhas de inatividade, o que pode impactar a taxa de convergência do ML. Na inferência, o conceito de micro-batch é mais flexível.
Impacto no Cache KV: O pipelining não reduz o footprint de memória do cache KV por GPU, pois o número de sequências em voo simultaneamente aumenta para manter os racks ocupados.

Capacidade e Largura de Banda de Memória

A demanda de memória é determinada pelos parâmetros totais (pesos) e pelo cache KV (proporcional ao tamanho do lote, comprimento do contexto e bytes por token).
A capacidade de memória por GPU é dividida pelo paralelismo de especialistas (E) e de pipeline (P).
Conclusão: O pipelining resolve o problema de capacidade de memória para os pesos do modelo, mas a largura de banda da memória (t_memory) é o principal fator limitante para o comprimento do contexto, especialmente em modelos densos. A largura de banda da memória é massivamente melhorada por domínios de scale-up maiores (mais GPUs em paralelo).

Preços de API e Implicações

Pope analisa os preços de API de modelos de IA para inferir informações sobre seus custos operacionais.

Custo por Comprimento de Contexto

Modelos como Gemini 3.1 cobram 50% a mais por contextos acima de 200k tokens.
Isso sugere que o ponto de inflexão de custo (onde o custo de memória começa a dominar o custo de computação) ocorre por volta de 200k tokens.
A análise estima que o custo de memória para o cache KV é de cerca de 2 kilobytes por token, o que é plausível para arquiteturas de atenção densa com 8 KV heads e dimensão de vetor de 128.
Implicação: A estagnação no aumento do comprimento do contexto dos modelos nos últimos anos (em torno de 100k-200k) é provavelmente devido ao custo proibitivo da largura de banda da memória, mesmo com melhorias como a atenção esparsa (que oferece um ganho de raiz quadrada, mas não infinito).

Custo de Entrada vs. Saída (Prefill vs. Decode)

O processamento de entrada (prefill) é significativamente mais barato (3-5x) do que a geração de saída (decode).
Explicação: O prefill é limitado pela computação, enquanto o decode é limitado pela largura de banda da memória. O custo por token de memória diminui à medida que o comprimento da passagem (pass length) aumenta, tornando o prefill mais barato por token.
Conclusão: Isso indica que os modelos são tremendamente limitados pela largura de banda da memória durante a decodificação.

Cache Hits e Tiers de Memória

Cache hits são 10x mais baratos do que cache misses (recomputar o cache KV do zero).
Os preços de API para manter o cache por 5 minutos versus 1 hora sugerem diferentes tiers de memória:
- 5 minutos: Provavelmente memória flash, com um tempo de drain (capacidade/largura de banda) na ordem de minutos.
- 1 hora: Provavelmente disco rígido (spinning disk), com um tempo de drain na ordem de horas.
Implicação: O uso de disco rígido para cache KV, apesar de ser uma tecnologia antiga e lenta, é uma estratégia para reduzir custos de armazenamento para dados que precisam ser mantidos por longos períodos.

Relação entre Redes Neurais e Criptografia

Pope explora a convergência e divergência entre a arquitetura de redes neurais e protocolos criptográficos.

Convergência: Ambos precisam "embaralhar" informações de suas entradas. Criptografia busca tornar a saída indistinguível do aleatório; redes neurais buscam extrair estrutura de dados aparentemente aleatórios.
Diferenciação: A principal diferença é que redes neurais são diferenciáveis (via gradiente descendente), enquanto ciphers são projetados para resistir à criptoanálise diferencial (onde pequenas diferenças na entrada causam grandes diferenças na saída).
RevNets (Redes Reversíveis): Uma construção de ciphers (Feistel network) foi adaptada para redes neurais em 2017. Permite que uma rede inteira seja invertível, eliminando a necessidade de armazenar todas as ativações na HBM durante o treinamento. Em vez disso, as ativações podem ser rematerializadas rodando a rede ao contrário, trocando computação por economia de memória. Isso é o oposto da estratégia do cache KV, que troca memória por computação.

Implicações

Progresso da IA: O progresso no tamanho dos modelos e comprimento do contexto foi limitado pela capacidade e largura de banda da memória nos racks. A capacidade de scale-up (mais GPUs em um único domínio de interconexão) é crucial para superar gargalos de largura de banda e permitir modelos maiores e contextos mais longos.
Otimização de Custos: As empresas de IA otimizam seus custos de treinamento e inferência, buscando um equilíbrio entre os gastos com pré-treinamento, RL e inferência. A heurística sugere que esses custos são equalizados. Modelos de ponta podem ser 100 vezes mais "over-trained" do que o ótimo de Chinchilla para equilibrar os custos de treinamento e inferência em larga escala.
Design de Hardware: A arquitetura de hardware (como os racks Blackwell da Nvidia) é projetada para otimizar padrões de comunicação específicos de modelos de IA, como o paralelismo de especialistas. No entanto, a densidade de cabos e as limitações físicas dos racks ainda são barreiras significativas para o scale-up.
Estratégias de Memória: A escolha de tiers de memória (HBM, DDR, Flash, Disco) para o cache KV é uma decisão de custo-benefício, balanceando o custo de armazenamento com o custo de recuperação e o tempo de retenção desejado.