Claude Fable 5 cria megakernel recordista no KernelBench-Mega

O modelo Claude Fable 5 superou concorrentes ao desenvolver um megakernel único para decodificação de LLM, atingindo 18,7x de aceleração.

Claude Fable 5 cria megakernel recordista no KernelBench-Mega — Foto: x.com

03/07 às 17:45

Pontos principais

O Claude Fable 5 foi o primeiro modelo a submeter um megakernel genuíno ao KernelBench-Mega, superando modelos como Opus 4.8 e GLM-5.2.
A solução funde todo o processo de decodificação de LLM em um único lançamento cooperativo de kernel na GPU RTX PRO 6000 Blackwell.
O desempenho atingiu 18,7x de aceleração sobre a implementação de referência, com a vantagem aumentando conforme o contexto cresce.
O kernel integra desquantização Int4, atenção MLA, roteamento MoE e gerenciamento de KV cache em uma única execução.
O modelo utilizou 64% do tempo de sessão para análise de baseline e microbenchmarking antes de escrever o código final de uma só vez.
A autenticidade da solução foi validada por auditoria, confirmando que o sistema realiza recomputação em tempo real sobre dados dinâmicos.

O modelo Claude Fable 5, da Anthropic, estabeleceu um novo marco em otimização de hardware ao desenvolver o primeiro megakernel autêntico submetido ao KernelBench-Mega. Diferente de abordagens anteriores que utilizavam pipelines Triton de múltiplos kernels, a solução do Fable 5 consolida todas as etapas de decodificação de um LLM — incluindo desquantização Int4, atenção MLA e roteamento MoE — em um único lançamento cooperativo de kernel. O teste foi realizado em uma GPU RTX PRO 6000 Blackwell, utilizando o benchmark Kimi-Linear W4A16.

Com um ganho de performance de 18,7x em relação à implementação de referência, o modelo superou significativamente outros competidores, como o Opus 4.8 (14,4x) e o GLM-5.2 (11,1x). A eficiência do megakernel torna-se ainda mais evidente em contextos longos, onde a capacidade de manter todo o processamento em um único lançamento amortece o custo de barreiras de grade, permitindo que o sistema escale o desempenho sem as perdas comuns em implementações fragmentadas.

Tópicos relacionados

Inteligência Artificial

Fontes