Attention Residuals da Moonshot AI para o Kimi pode mudar como modelos de IA usam camadas
NerdSchalk: Moonshot AI trata a profundidade do modelo como dimensão sequencial, aplicando atenção seletiva ao eixo de profundidade.
|
18/03 às 09:00
Pontos principais
- Analogia entre dimensão temporal (atenção) e dimensão de profundidade (residuais)
- Primeiro a aplicar agregação seletiva ao eixo de profundidade de transformers
- Resolve progressiva diluição de contribuição por camada em PreNorm
Mencionado nesta matéria
Organizações
Moonshot AI
