Daily Journal

O Futuro da Informação

Attention Residuals: Relatório Técnico

arXiv: Paper introduz AttnRes como substituto drop-in para conexões residuais, com validação no Kimi Linear em 1,4T tokens.

Daily Journal
|
18/03 às 09:00

Pontos principais

  • AttnRes substitui acumulação fixa por atenção softmax sobre outputs anteriores
  • Block AttnRes reduz footprint de memória preservando ganhos
  • Pré-treinado no Kimi Linear (48B/3B) em 1,4T tokens
  • Melhoria de 1,25x compute-equivalent em experimentos de escala

Mencionado nesta matéria

Organizações

Moonshot AI