Daily Journal
Daily Journal

Como construir um cluster de GPUs para Inteligência Artificial

O gargalo de um datacenter de IA de 100 MW não é a GPU. É a energia, os eletricistas e os noventa contratos. Por dentro do processo de erguer um cluster, das nove disciplinas paralelas ao que separa um galpão energizado do primeiro job de treino.

Daily Journal
Michael··

Por dentro do processo de erguer um datacenter de IA de 100 MW ou mais: as nove frentes em que a tarefa se divide, o que virou manufatura de fábrica, quanta gente e quantas empresas entram, e por que o gargalo de verdade não é a GPU.

A virada que ninguém anunciou

Quando a Crusoe abriu o canteiro do datacenter de IA em Abilene, no Texas, tinha 5.600 trabalhadores no terreno todo dia. A xAI levantou a primeira fase do Colossus, 100 mil GPUs, em 122 dias. A Meta colocou dois clusters de 24.576 GPUs cada para rodar e descobriu que a utilização travava em algum ponto entre 10% e 90% até alguém ajustar o escalonador e a biblioteca de comunicação.

Nenhum desses três números é sobre "construir um prédio". Eles descrevem uma operação industrial em que civil, energia, refrigeração, rede e computação são linhas de montagem paralelas que precisam convergir numa data. Construir um cluster de GPUs para IA já não é uma obra de construção civil. Virou uma operação de manufatura amarrada a uma negociação por energia elétrica.

Esse ponto some na conversa sobre IA, que vive de modelos e chips. O chip é o componente mais fácil de comprar. O difícil é tudo em volta: os megawatts, os eletricistas, os noventa contratos, o cabeamento, e as semanas de comissionamento que separam um galpão energizado do primeiro job de treino rodando de verdade.

Este texto destrincha esse processo. A maior parte dos números vem de quem esteve perto da obra: a reportagem de engenharia da Engineering News-Record sobre Abilene, a série "Datacenter Anatomy" da SemiAnalysis, o relato da própria Meta, o playbook da Imbue de quem ligou o cluster. Cruzei tudo com fontes independentes para separar o real do marketing. Onde um número é estimativa ou vem de fornecedor interessado, isso está dito.

O que significa "100 MW ou mais"

Comece pela ordem de grandeza, porque ela explica todo o resto.

Um cluster de 100 mil GPUs H100 consome cerca de 150 MW só de carga crítica de computação. Para comparar: o El Capitan, maior supercomputador de laboratório nacional dos EUA, usa 30 MW. Cinco vezes menos. Esses 150 MW puxam aproximadamente 1,59 TWh por ano, na casa de US$ 120 milhões anuais só de conta de luz.

Não cabe num prédio. Os clusters de 100 mil GPUs ou mais ficam distribuídos por vários prédios num mesmo campus, porque a limitação de potência impede concentrar tudo num ponto. Em Abilene são oito prédios de cerca de 474 mil pés quadrados cada, e cada prédio comporta quatro data halls de 106 mil pés quadrados. Cada hall foi dimensionado para 500 racks e até 25 MW de carga de TI. Isso dá 100 MW por prédio, 1,2 GW no campus inteiro, rodando até 50 mil GB200 NVL72 numa única malha de rede integrada.

E custa o equivalente a uma usina. A estimativa independente mais limpa vem da Epoch AI: um datacenter de IA de 1 GW custa cerca de US$ 38 bilhões de capex inicial, com custo total anualizado de aproximadamente US$ 8,5 milhões por MW. Os servidores GB200 sozinhos respondem por cerca de 60% do custo. É um modelo estilizado, que assume frota toda de GB200 e vida útil e PUE fixos. Não é a fatura de uma obra específica. Serve de âncora de ordem de grandeza, não de orçamento.

A última coisa a entender sobre a escala é a densidade. Um rack de escritório tradicional dissipa 5 a 10 kW. Um rack de GPUs para IA fica em 40 a 50 kW. Essa única diferença é o que reescreve as regras de energia, de refrigeração e, como veremos, de mão de obra.

As nove frentes em que a tarefa se divide

A pergunta prática, "em que áreas dividir essa tarefa enorme?", tem uma resposta que aparece com consistência nas fontes. O trabalho se decompõe em nove disciplinas, cada uma com seu cronograma, seus fornecedores e seus especialistas. Elas correm em paralelo e só convergem no comissionamento.

  1. Terreno e site. Antes de comprar a terra, é preciso diligenciar o caminho de interconexão elétrica: classe de tensão, rota até a subestação, processo de conexão com a concessionária, risco de upgrade na rede, uma data de energização crível. Comprar o terreno antes de saber se há energia é o erro clássico. A interconexão é o que decide o cronograma inteiro, e voltaremos a ela.

  1. Energia e subestação. Subestação da concessionária, transformadores, switchgear de média tensão, geradores de backup, sistemas de UPS e baterias, distribuição de baixa tensão. Tudo organizado em "pods" elétricos padronizados, de 1.600 kW, 2 MW ou 2,5 MW, cada um com seu conjunto dedicado de gerador, transformador, UPS e switchgear. Quando a rede não dá conta, a geração no local entra no escopo da obra. Em Abilene a subestação de 200 MW era insuficiente, então uma usina a gás de 340 MW foi projetada e contratada em questão de semanas, e construída junto.

  1. Shell e civil. A envoltória e a estrutura dos prédios. É a frente que mais se beneficiou de pré-fabricação, como veremos.

  1. Mecânica e refrigeração. O segundo maior item de capex depois da elétrica, descontados os servidores. O bloco básico é a CDU (Coolant Distribution Unit): um trocador de calor líquido-líquido, bombas e eletrônica de controle, alimentando refrigeração direta ao chip. O Colossus 2 da xAI usa 119 chillers a ar para entregar cerca de 200 MW de refrigeração, suficientes para algo como 110 mil GB200 NVL72.

  1. Elétrica de campo. A distribuição de baixa tensão até o rack: busways, PDUs, o último metro de cobre antes da GPU.

  1. Rede e malha (fabric). A topologia que conecta as GPUs entre si. Tipicamente uma fat-tree otimizada por rail, de dois níveis, sem bloqueio, com 8 NICs de 400 Gb/s por servidor sobre InfiniBand ou Ethernet (Spectrum-X). É onde mora a maior dificuldade técnica do projeto, e tem seção própria adiante.

  1. Computação e integração de rack. Os "pods", ou scalable units, com tipicamente 256 GPUs (32 servidores HGX). A montagem em escala de rack fica com equipes dos OEMs (Supermicro, Dell), não com módulos prontos de prateleira, e inclui um burn-in de alta temperatura de 3 a 4 semanas para matar a mortalidade infantil de componentes antes do deploy.

  1. Bring-up de software. Provisionar as máquinas (SO, BIOS, firmware via PXE/MAAS), provisionar a malha InfiniBand, verificar a saúde do hardware, integrar o software de treino (NCCL), montar monitoramento e observabilidade, automatizar a operação. É uma população de trabalho completamente diferente da do canteiro: uma equipe pequena de engenheiros e pesquisadores, não milhares de operários.

  1. Comissionamento. A validação em cinco níveis sequenciais, do teste de fábrica (L1) ao teste de sistema integrado (L5), que verifica energia, refrigeração, supressão de incêndio e monitoramento DCIM antes de declarar o prédio pronto. Os equipamentos elétricos e de refrigeração de longo prazo de entrega, o switchgear em especial, governam o cronograma geral.

Vale fixar a imagem mental de um cronograma de referência de build modular: planejamento e licenças nos meses 1 e 2, projeto e compras do 2 ao 4, manufatura em fábrica somada a preparo do terreno em paralelo do 4 ao 8, entrega e instalação do 8 ao 10, comissionamento no 10 e 11, produção no mês 12. As nove disciplinas não são etapas de uma fila. São raias de uma piscina que terminam na mesma parede.

O que a fábrica faz pela gente, e o que o marketing exagera

A grande mudança de método é que boa parte do que antes se fazia no canteiro migrou para a fábrica. E aqui é preciso cuidado, porque é o ponto onde o discurso comercial infla.

O que é real, ancorado num build de verdade de mais de 100 MW (Abilene, segundo a ENR, que entrevistou o GC DPR e os contratados Rosendin e Southland):

  • Painéis de fechamento pré-fabricados. São 672 painéis metálicos isolados por prédio, com apenas 4 tipos únicos, fabricados em menos de 40 dias, instalados a 15 ou 20 por dia. O prédio é fechado em menos de oito semanas.

  • Skids e racks multidisciplinares pré-montados. Skids de potência, conjuntos de refrigeração e salas elétricas inteiras chegam montados de fábricas centralizadas.

  • Elétrica modular. Switchgear montado em fábrica, UPS em "cores" empilháveis, racks elétricos subterrâneos modularizados, gabarito de chumbadores pré-fabricado.

  • Módulos completos. A Crusoe produz unidades de "fábrica de IA" (Spark) que juntam energia, refrigeração, monitoramento, supressão de incêndio e racks de alta densidade num único módulo, feito em fábrica dedicada com manufatura automatizada.

O resultado real: cada prédio de Abilene foi entregue em menos de um ano, e cada hall leva cerca de 10 meses até ser energizado. Isso é compressão de cronograma genuína.

Agora o que não se sustenta fora do material de fornecedor. As afirmações de "redução de 70% da mão de obra no canteiro", "+240% de produtividade", "build modular em 12 meses" (Introl) e "fábrica de IA pronta em ~3 meses" (Crusoe) não foram corroboradas por nenhuma fonte independente. Pesquisa da McKinsey mostra que a pré-fabricação representa, na média, 40% a 60% das peças (80% a 85% para os líderes), e na prática funciona mais como insumo pré-construído para uma obra ainda erguida no local do que como módulo plug-and-play. A vantagem modular se degrada acima de uns 50 MW, em prédios de múltiplos andares ou em projetos muito customizados, que é exatamente o regime de um cluster de IA de grande porte.

O número honesto sobre mão de obra é outro: a pré-fabricação corta de 20% a 40% do trabalho no canteiro, não 70%. É uma melhoria importante. Não é mágica. Quem promete um datacenter de 100 MW "pronto em três meses" está vendendo o tempo de fechar o galpão, não o de comissionar o sistema.

Quem está no canteiro, e o gargalo que não é a GPU

Os números de gente confirmam a escala industrial. No pico, um campus de mais de 100 MW tem vários milhares de trabalhadores simultâneos:

  • Abilene: pico declarado de 5.600 por dia, 2.785 já no terreno em julho de 2025, cerca de 2,75 milhões de horas-homem só nos dois primeiros prédios. A Rosendin Electric sozinha tinha mais de 1.200 pessoas (e 180 supervisores), e a Southland Brandt, mais de 900.

  • O campus Red Oak da DataBank projeta pico de 4.000 a 5.000 trabalhadores. Era cerca de 750 no auge de grandes instalações uma década atrás.

Mas o headcount de pico esconde a parte mais importante, que é qual mão de obra falta. A resposta surpreende: não são programadores nem operadores de GPU. São eletricistas.

Aquela densidade de 40 a 50 kW por rack significa que cada MW de datacenter de IA exige cerca de 1.800 horas de eletricista, contra 200 a 400 horas por MW num prédio comercial. Estimativas do CSIS apontam que os EUA precisam de algo entre 63 mil e 140 mil trabalhadores qualificados a mais até 2030, com caso mediano acima de 100 mil. As vagas mais especializadas demoram meses para preencher: especialista em infraestrutura de IA, mais de 5 meses; engenheiro de MEP, 4,2 meses; agente de comissionamento, 3,5 meses.

E repare como isso se conecta com a seção anterior. A pré-fabricação, mesmo no melhor caso, reduz o trabalho de campo em 20% a 40%. Não elimina a dependência de eletricistas qualificados. Ela apenas desloca parte dela para a fábrica. O gargalo de mão de obra é estrutural, não um detalhe de execução.

Separada de tudo isso está a equipe de bring-up de software: pequena, interna, de engenheiros e pesquisadores. A Imbue ligou um cluster de 4.088 GPUs com uma equipe enxuta trabalhando ao lado de parceiros. As duas populações, os milhares no concreto e a dezena no terminal, quase não se cruzam. O artigo que confunde as duas erra a natureza do trabalho.

O ecossistema: quantas empresas erguem isso

A obra não é um punhado de empreiteiras. É um ecossistema estruturado em camadas. Abilene dá o número mais limpo:

  • Um contratante geral (DPR Construction) no topo.

  • Dois contratados principais: Rosendin Electric (elétrica) e Southland Brandt (mecânica).

  • A DPR gerencia 60 subcontratados, e outros 30 ficam sob os principais. São cerca de 90 empresas de construção no total, além de um sub de engenharia (GPLA) e um parceiro de pré-fabricação (Digital Building Components).

Por cima dessa pirâmide de construção vem o ecossistema de OEMs de equipamento, dividido por disciplina:

  • Elétrica: Vertiv, Schneider Electric, Eaton, Legrand, Delta.

  • Refrigeração: nVent (trocadores de porta traseira), Dafnia (CDUs), YORK/SPX (chillers).

  • Geração no local: GE Vernova (turbinas a gás), Tesla (Megapacks), Solaris.

  • Computação e malha: NVIDIA (GPU/NIC), Broadcom (ASIC de switch), Celestica (switches ODM), Innolight e Eoptolink (ópticas), Supermicro e Dell (servidores e integração de rack).

  • Comissionamento e BMS: Siemens, Schneider, Huawei.

A SemiAnalysis rastreia mais de 200 fornecedores ligados a datacenter. A regra de bolso para um build de mais de 100 MW: na ordem de 90 empresas de construção mais dezenas de OEMs de equipamento. Ninguém faz isso sozinho, e coordenar esse ecossistema é, por si só, uma das disciplinas mais difíceis.

A rede: onde mora a dificuldade técnica de verdade

Se o civil e a energia são onde está o volume de trabalho, a malha de rede é onde está a dificuldade intelectual. Treinar um modelo grande significa que dezenas de milhares de GPUs precisam trocar gradientes a cada passo, e a rede que as conecta decide se o cluster atinge alta utilização ou desperdiça metade do silício.

O relato mais instrutivo é o da Meta. Para os dois clusters de 24.576 GPUs H100, a empresa fez algo deliberado: montou um com rede RoCE (Ethernet, com switches Arista e Minipack próprios) e o outro com InfiniBand Quantum2 da NVIDIA, ambos a 400 Gb/s, justamente para comparar as duas abordagens em escala real. A lição que veio dali é a parte que mais importa para quem vai construir. A utilização do cluster grande começou oscilando entre 10% e 90%, contra 90% e pouco estável nos clusters pequenos, e só ficou consistentemente acima de 90% depois de escalonamento ciente da topologia e de ajuste fino do NCCL. Ou seja: a rede pronta no papel não entrega desempenho. O desempenho vem da sintonia.

Os princípios de projeto que se repetem nas fontes:

  • Topologia rail-optimized. Pods de 256 GPUs, fat-tree de dois níveis sem bloqueio, com a malha desenhada em torno dos "rails" para minimizar saltos.

  • Cabeamento é gargalo de mão de obra. Em escala de 100 mil GPUs, puxar e conectar os cabos é um dos trabalhos manuais mais demorados. Não dá para pré-fabricar a interconexão inteira.

  • Confiabilidade vira restrição de projeto. Com tantos transceptores, a primeira falha de um job acontece em cerca de 26 minutos numa malha nova e funcionando, mesmo com tempo médio entre falhas de 5 anos por link. Isso obriga a engenharia de checkpointing, nós sobressalentes a quente e reconstrução de memória via RDMA. O cluster é projetado supondo que algo sempre está quebrado.

A escolha entre cobre e óptica também se decide aqui: o desenho rail-optimized contra o middle-of-rack muda quanto da malha é cobre (25% a 33% no middle-of-rack) e habilita pré-teste e integração em fábrica.

Do bare-metal ao primeiro job de treino

Energizar o prédio não é terminar. Entre o galpão pronto e o treino rodando existe uma sequência que costuma ser subestimada por quem olha só o concreto.

Primeiro vem a integração em escala de rack pelos OEMs, com o burn-in de 3 a 4 semanas em alta temperatura, seguido de cerca de duas semanas para colocar em operação no datacenter. O burn-in de fábrica, nos módulos pré-fabricados, faz um teste de carga total de 48 horas que pega a maioria dos defeitos antes de chegar ao site.

Depois vem o bring-up de software, na sequência que a Imbue documentou: provisionamento de máquinas (SO, BIOS, firmware), provisionamento da malha InfiniBand, verificação de saúde do hardware, integração do software de treino (NCCL), monitoramento e automação operacional. Boa parte é automatizada (instalação de SO via PXE, health checks, relançamento automático em caso de falha), mas o trabalho físico de reassentar GPUs e refazer cabeamento continua manual.

Por fim, o comissionamento formal, nos cinco níveis sequenciais que validam energia, refrigeração, incêndio e DCIM, do teste de aceitação em fábrica ao teste de sistema integrado. Só então o cluster está pronto para o primeiro job de treino que importa.

É por isso que "fechar o prédio em oito semanas" e "ligar o cluster" são afirmações sobre coisas diferentes, separadas por meses.

O gargalo de verdade: energia

Fica uma conclusão acima das outras: o que limita um cluster de GPUs para IA não é a GPU, nem o dinheiro, nem o concreto. É a energia.

A obra física de um datacenter leva 2 a 3 anos. Conectar essa obra à rede elétrica leva de 4 a 10 anos em muitas regiões. A interconexão, não a construção, é a restrição que amarra o cronograma. Um build de 500 MW com conexão flexível e geração própria (bring-your-own-capacity) chega a operar em cerca de 2 anos, de 3 a 5 anos mais rápido que o caminho convencional, o que implica que o caminho convencional leva de 5 a 7 anos. A Google já chamou os atrasos de rede de "o desafio número um", com prazos de 4 a 5, às vezes 10 a 12 anos. Há na casa de 2.300 a 2.600 GW presos em filas de interconexão nos EUA.

E a demanda só acelera. A projeção é de a potência para datacenters nos EUA triplicar, de cerca de 25 GW em 2024 para 80 a 100 GW ou mais até 2030. É isso que empurra os desenvolvedores para soluções que contornam a rede: geração a gás behind-the-meter (como os 340 MW de Abilene), acordos com nuclear, e os pequenos reatores modulares (SMRs) que, na melhor das hipóteses, não chegam antes de 2030. E mesmo contornando a rede, um novo gargalo aparece atrás: os prazos de entrega de transformadores e turbinas hoje estão em 120 a 160 semanas.

Energia é o motivo pelo qual um cluster de IA moderno se parece menos com um datacenter clássico e mais com um complexo industrial pesado, com sua própria usina ao lado.

O que fica

Construir um cluster de GPUs para Inteligência Artificial é, no fundo, gerenciar quatro realidades que o discurso público sobre IA quase sempre ignora.

A primeira é que mudou o método. Saiu de erguer um prédio e entrou montar uma linha de componentes pré-fabricados que convergem numa data. A fábrica corta de 20% a 40% do trabalho de campo, não os 70% que o marketing promete.

A segunda é que ninguém faz isso sozinho. São cerca de 90 empresas de construção e mais de 200 fornecedores de equipamento, coordenados em camadas, do contratante geral ao fabricante de óptica.

A terceira é que a dificuldade técnica está na rede, não no chip. A GPU se compra. O que separa um cluster medíocre de um excelente é a topologia da malha e as semanas de sintonia que levam a utilização de 10% para 90%.

A quarta, e a que pesa mais, é que o limite é a energia. Megawatts e os eletricistas que os instalam, não GPUs nem capital, definem o que é possível e em quanto tempo. Quem traz a própria energia constrói em 2 anos. Quem depende da fila espera 5 a 7.

A pergunta do título, então, cabe numa frase. Você constrói um cluster de GPUs para IA dividindo uma tarefa enorme em nove frentes paralelas, terceirizando o máximo possível para a fábrica, montando um ecossistema de quase cem empresas, e, antes de tudo, garantindo a energia, porque é ela, e não o silício, que decide se a obra sai do papel.

Nota de método e fontes

Este texto foi montado a partir de duas rodadas de pesquisa multifonte, com verificação adversarial de cada afirmação central (três revisores por alegação, e o que não tinha suporte foi descartado). Os números de custo da Epoch AI vêm de um modelo estilizado, não de uma instalação medida. Os números de velocidade modular de fornecedores (Introl, Crusoe) não foram corroborados de forma independente, e foram tratados como marketing. Os de Abilene vêm de reportagem de engenharia, mas algumas cifras de painéis traçam à própria empresa. As projeções de energia (25 para 80-100 GW, interconexão de 4 a 10 anos) são previsões, e a estimativa de 1.800 horas de eletricista por MW é de fonte única (CSIS), plausível mas ainda não republicada de forma independente.

Fontes de quem esteve perto da obra: Engineering News-Record sobre Abilene, Crusoe sobre o data center de Abilene, Building Meta's GenAI Infrastructure, SemiAnalysis Datacenter Anatomy: Electrical e Cooling, 100,000 H100 Clusters e AI Neocloud Playbook, ServeTheHome sobre o xAI Colossus, Imbue: From Bare Metal to a 70B Model.

Fontes independentes sobre custo, prefab, energia e mão de obra: Epoch AI, McKinsey, Institute for Progress, Data Center Frontier, CSIS, The Next Platform.

Comentários

Carregando comentários...