Todo o valor de um modelo como Claude ou GPT se resume, no fim, a um conjunto de arquivos. Bilhões de dólares em computação, anos de pesquisa e o trabalho de centenas de engenheiros condensados em alguns terabytes de números de ponto flutuante: os pesos. Se alguém copiar esses arquivos, leva o modelo inteiro.
Anthropic e OpenAI não revelam como guardam os seus. Mas a engenharia de inferência em escala é razoavelmente padronizada, e há fontes públicas sólidas — papers de sistemas, documentação de infraestrutura da AWS e da NVIDIA, e um relatório da RAND Corporation dedicado exatamente a isso — que permitem reconstruir o quadro com boa confiança. O que segue é a prática conhecida da indústria, com os pontos especulativos sinalizados.
O arquivo em si
O formato dominante hoje é o safetensors: um cabeçalho com o mapa dos tensores em JSON, seguido dos dados em bloco contíguo. Em março de 2025, 42% dos modelos no Hugging Face já usavam esse formato. A vantagem prática é que ele pode ser mapeado direto na memória, sem desserialização — e, ao contrário do formato nativo do PyTorch, não executa código ao ser aberto, o que fecha uma porta clássica de ataque.
O tamanho escala de forma previsível: cerca de 2 bytes por parâmetro na precisão BF16. O Llama 3.1 de 405 bilhões de parâmetros, o maior modelo aberto que serve de referência, ocupa uns 800 GB — metade disso se quantizado para FP8. Modelos de fronteira fechados chegam a vários terabytes. É pouco. Um modelo que custou bilhões para treinar cabe em meia dúzia de SSDs.
Da prateleira para a GPU
Em produção, os pesos ficam em object storage (como o S3 da Amazon) ou em filesystems distribuídos de alta performance, já fatiados em shards — um arquivo por GPU. Quando um servidor de inferência sobe, cada GPU carrega só a sua fatia.
O caminho tradicional passa pela CPU: storage, memória RAM, e daí para a GPU via PCIe. Para um modelo de 405B, isso leva de 10 a 20 minutos — uma eternidade quando você precisa subir capacidade nova porque o tráfego explodiu. A solução mais recente pula a CPU inteiramente: tecnologias como o GPUDirect Storage da NVIDIA leem o arquivo direto para a memória da GPU, com todas as placas puxando seus shards em paralelo.
Dentro do cluster, o modelo é dividido de duas formas que se combinam: tensor parallelism fatia as próprias matrizes de peso entre GPUs do mesmo nó, e pipeline parallelism distribui blocos de camadas entre nós, com as ativações passando de um para o outro. Nenhuma GPU jamais contém o modelo inteiro.
Quantas cópias existem?
Essa é a pergunta mais interessante, e a resposta documentada é desconfortável. O relatório "Securing AI Model Weights" da RAND, de 2024, é a melhor fonte pública: os pesos de fronteira não existem como artefato único, e sim em múltiplas cópias — checkpoints de treino, réplicas de inferência espalhadas por regiões, backups, ambientes de pesquisa.
Pior: segundo a RAND, em muitos laboratórios líderes, centenas ou milhares de funcionários têm acesso de leitura completo aos pesos. Qualquer um deles pode, em tese, fazer uma cópia. O roubo de pesos não exige invadir um cofre; exige um insider com um destino para o upload.
O elo fraco da criptografia
Criptografar os pesos em repouso e em trânsito é o básico, e presumivelmente todos fazem. Mas há um buraco estrutural: na hora de inferir, o peso precisa estar descriptografado na memória da GPU. Durante o uso — que é o tempo todo, num modelo em produção — ele está exposto a quem controlar a máquina.
A resposta emergente é o confidential computing: descriptografar apenas dentro de um enclave de hardware (TEE) que se recusa a rodar código não atestado. A Anthropic publicou em 2025 um design de pesquisa nessa linha, o Confidential Inference: os pesos ficam criptografados em repouso e só são abertos dentro de um "loader" confiável, rodando numa VM isolada pelo hypervisor, que se apresenta ao servidor de inferência como um acelerador virtual. O peso descriptografado nunca sai dali. O design usa atestação, chaves em KMS e os modos confidenciais das GPUs H100/H200. Importante: é um sketch de pesquisa publicado, não um sistema confirmado em produção. Da OpenAI, não há nada público comparável.
O teto da segurança
A RAND mapeou 38 vetores de ataque distintos e definiu cinco níveis de segurança, do SL1 (resistir a criminosos oportunistas) ao SL5 (resistir a um Estado-nação determinado e capaz). A conclusão mais citada do relatório: o SL5 não é atingível hoje com soluções de mercado. Proteger pesos contra um adversário do calibre de uma agência de inteligência exigiria infraestrutura que nenhum laboratório possui, e provavelmente ajuda da própria comunidade de segurança nacional.
As recomendações concretas são quase mundanas: centralizar todas as cópias em poucos sistemas monitorados, cortar drasticamente quem tem acesso, nunca deixar pesos em laptops, chaves num KMS. O que diz muito — o estado da arte em proteger os artefatos mais valiosos da economia digital ainda é, em grande parte, higiene básica bem executada.
O que ninguém conta
Resta o que é genuinamente confidencial: quantas cópias exatas de Claude e GPT existem, em quais regiões, em que precisão rodam em produção, como terabytes de pesos atravessam fisicamente o mundo quando um modelo novo é lançado. Nada disso é público, e provavelmente não será — o sigilo aqui é parte da segurança.
Mas o desenho geral é esse: arquivos surpreendentemente pequenos para o que valem, replicados mais do que o ideal, acessíveis a mais gente do que deveriam, e protegidos por uma disciplina de segurança que ainda corre atrás do tamanho do prêmio.
Fontes principais: RAND Corporation, "Securing AI Model Weights" (2024); Anthropic, "Confidential Inference via Trusted VMs" (2025); fastsafetensors (arXiv 2505.23072); vLLM, documentação de inferência distribuída; AWS e NVIDIA, blogs de engenharia de infraestrutura.
