Troca drop-in das conexões residuais por atenção softmax entre camadas resolve diluição PreNorm no Kimi Linear (48B/3B ativos).
O time Kimi da Moonshot AI propôs Attention Residuals (AttnRes), que substitui as conexões residuais fixas em transformers por atenção softmax sobre outputs de camadas anteriores. A variante prática, Block AttnRes, particiona camadas em blocos e serve como troca drop-in com overhead mínimo. Integrado ao Kimi Linear (48B total / 3B parâmetros ativos) e pré-treinado em 1,4T tokens, o AttnRes resolve a diluição PreNorm e entrega 1,25x de eficiência compute-equivalent.
18 mar, 09:00
7 mar, 09:00
1 mar, 13:19
22 set, 21:00
24 jul, 21:00