Moonshot AI propõe Attention Residuals para transformers com 1,25x de eficiência

Troca drop-in das conexões residuais por atenção softmax entre camadas resolve diluição PreNorm no Kimi Linear (48B/3B ativos).

18/03 às 09:00

Pontos principais

Attention Residuals substitui conexões residuais fixas por atenção softmax entre camadas
Block AttnRes é variante prática com overhead mínimo e compatível drop-in
Resolve o problema de diluição PreNorm que dilui progressivamente a contribuição de cada camada

Integrado ao Kimi Linear (48B total / 3B parâmetros ativos) e pré-treinado em 1,4T tokens

Melhoria de 1,25x em eficiência compute-equivalent

O time Kimi da Moonshot AI propôs Attention Residuals (AttnRes), que substitui as conexões residuais fixas em transformers por atenção softmax sobre outputs de camadas anteriores. A variante prática, Block AttnRes, particiona camadas em blocos e serve como troca drop-in com overhead mínimo. Integrado ao Kimi Linear (48B total / 3B parâmetros ativos) e pré-treinado em 1,4T tokens, o AttnRes resolve a diluição PreNorm e entrega 1,25x de eficiência compute-equivalent.

Fontes

Attention Residuals da Moonshot AI para o Kimi pode mudar como modelos de IA usam camadas

Nerdschalk • 18 mar, 09:00

Attention Residuals: Relatório Técnico

Arxiv • 18 mar, 09:00

Comentários

Carregando comentários...

Moonshot AI propõe Attention Residuals para transformers com 1,25x de eficiência

Pontos principais

Fontes

Attention Residuals da Moonshot AI para o Kimi pode mudar como modelos de IA usam camadas

Attention Residuals: Relatório Técnico

Leia também

AI Scientist da Sakana AI é publicado na Nature, primeiro sistema autônomo revisado por pares

THOR resolve integrais de mecânica estatística 400x mais rápido que supercomputadores

DeepSeek V4 entrega 1 trilhão de parâmetros a 1/20 do custo do GPT-5

DeepSeek V4 lança na próxima semana: modelo de 1 trilhão de parâmetros otimizado para chips chineses

Anthropic detalha técnicas de prompt engineering para Claude

Comentários