Attention Residuals: Relatório Técnico
arXiv: Paper introduz AttnRes como substituto drop-in para conexões residuais, com validação no Kimi Linear em 1,4T tokens.
|
18/03 às 09:00
Pontos principais
- AttnRes substitui acumulação fixa por atenção softmax sobre outputs anteriores
- Block AttnRes reduz footprint de memória preservando ganhos
- Pré-treinado no Kimi Linear (48B/3B) em 1,4T tokens
- Melhoria de 1,25x compute-equivalent em experimentos de escala
Mencionado nesta matéria
Organizações
Moonshot AI
