Why AI needs a new kind of supercomputer network — the OpenAI Podcast Ep. 18

Neste episódio do OpenAI Podcast, Andrew Mayne conversa com Mark Handley, da equipe de rede, e Greg Steinbrecher, de sistemas de carga de trabalho, sobre como a OpenAI está aprimorando supercomputadores para o treinamento de modelos de IA. Eles discutem um avanço que tornou o treinamento mais eficiente, permitindo modelos mais inteligentes e rápidos, e como isso removeu uma barreira fundamental para a escalabilidade.

Desafios da Rede em Treinamento de IA

Natureza da Carga de Trabalho de IA: Diferente das redes tradicionais da internet, onde muitas comunicações independentes se beneficiam da estatística de grandes números, o treinamento de IA envolve milhares de GPUs trabalhando em uma única tarefa sincronizada. Se uma GPU atrasa, todas as outras esperam, resultando em tempo e recursos desperdiçados.
Comunicação como Computação: A comunicação entre GPUs é parte integrante da computação. Elas precisam se comunicar para concordar com o resultado de cada etapa, tornando a rede um gargalo crítico.
Escala e Falhas: Com o aumento exponencial de GPUs, a probabilidade de falhas de hardware (links, switches) aumenta. Em sistemas síncronos, uma única falha pode paralisar todo o trabalho, exigindo reinícios e retrabalho.
Complexidade da Rede: Data centers de IA exigem hierarquias complexas de switches para fornecer a largura de banda necessária. Isso cria milhares de caminhos potenciais para o tráfego, e a escolha do caminho mais eficiente e sem gargalos é um desafio.
Estatísticas de Cauda: Ao contrário das redes tradicionais que se beneficiam de médias, as redes de treinamento de IA são limitadas pelo pior caso (percentil 100). O link mais congestionado determina a velocidade de todo o sistema, tornando a otimização de cauda crucial.
Integração Vertical: A OpenAI percebeu que o design dos sistemas é fundamental para o treinamento de modelos. Equipes de infraestrutura e de modelos trabalham juntas em um codesign para otimizar o desempenho, com engenheiros de rede trabalhando diretamente com pesquisadores para identificar e resolver gargalos.

Multipath Reliable Connection (MRC)

Para superar esses desafios, a OpenAI desenvolveu o Multipath Reliable Connection (MRC), uma nova abordagem para redes de supercomputadores:

Balanceamento de Carga e Múltiplos Caminhos: O MRC distribui pacotes por múltiplos caminhos na rede, balanceando a carga de forma mais uniforme. Isso evita hotspots e garante que a capacidade da rede seja utilizada de forma eficiente.
Packet Trimming: Em caso de congestionamento, em vez de descartar pacotes, o MRC remove o payload e envia apenas o cabeçalho. Isso permite que o destino solicite uma retransmissão imediata, eliminando a ambiguidade sobre perdas de pacotes e acelerando a recuperação.
Resiliência a Falhas: O MRC permite que cada endpoint detecte e evite links com falha de forma independente e rápida (em milissegundos), sem a necessidade de coordenação centralizada. Isso elimina os longos tempos de convergência dos protocolos de roteamento tradicionais (que podem levar segundos ou dezenas de segundos), garantindo que o trabalho continue sem interrupções significativas.
Roteamento Estático Simplificado: Com o MRC, a OpenAI pode usar roteamento estático nos switches, simplificando drasticamente a complexidade da rede. O MRC se encarrega de encontrar os caminhos funcionais, mesmo que alguns links estejam quebrados, removendo a necessidade de protocolos de roteamento dinâmicos e complexos.
Eficiência Energética e de Custo: O MRC permite a construção de redes mais planas e com menos camadas de switches, resultando em menor consumo de energia e custos reduzidos. Isso aumenta a quantidade de trabalho útil por watt, direcionando mais energia para as GPUs.

Implicações

Modelos Mais Rápidos e Inteligentes: O MRC acelera o pipeline de pesquisa e implantação da OpenAI, permitindo o treinamento de modelos de fronteira de forma mais rápida e confiável. Isso significa que os usuários podem esperar uma “pipeline de lançamentos cada vez mais emocionante”.
Experiência do Usuário Aprimorada: Pesquisadores e usuários não precisam mais se preocupar com falhas de trabalho ou problemas de desempenho relacionados à rede. O MRC lida com a complexidade e as falhas de forma transparente.
Padrão Aberto: A OpenAI está abrindo a especificação do MRC através do OCP como um padrão aberto. Isso visa beneficiar toda a indústria, promovendo a colaboração e a inovação em infraestrutura de IA. Acredita-se que a colaboração e os padrões abertos são essenciais para o avanço da IA, evitando a fragmentação da cadeia de suprimentos e permitindo que todos “empurrem na mesma direção”.
Escalabilidade Contínua: O MRC é construído sobre o Ethernet, um padrão aberto e em constante evolução. Isso garante que, à medida que o Ethernet escala, o MRC também escalará, permitindo que a OpenAI continue a expandir seus supercomputadores e treinar modelos cada vez maiores e mais complexos.
Limites Físicos: Embora o MRC resolva muitos problemas de rede, limites fundamentais como a velocidade da luz e a taxa de falha de hardware em grande escala permanecem. Treinar modelos em locais distribuídos ou no espaço apresenta desafios significativos de latência e manutenção, tornando os data centers terrestres a solução mais prática no momento. A complexidade de construir e operar esses sistemas na Terra já é imensa, e adicionar complicações como o espaço exigiria uma justificativa muito forte.