Memory Sparse Attention mantém menos de 9% de degradação ao escalar de 16K a 100M tokens; modelo de 4B supera RAG em 16 pontos.
A EverMind apresentou o Memory Sparse Attention (MSA), arquitetura que escala contexto de LLMs a 100 milhões de tokens com menos de 9% de degradação de desempenho. A inovação combina quatro técnicas: sparsificação baseada em conteúdo, Document-wise RoPE para extrapolação de contexto extremo, compressão de KV Cache com paralelismo de memória e Memory Interleave para raciocínio multi-hop.
Um modelo de apenas 4B parâmetros com MSA superou sistemas RAG complexos por até 16 pontos percentuais, inclusive sistemas usando modelos 58 vezes maiores. A arquitetura permite inferência de 100M tokens em apenas duas GPUs A800, offloadando KVs de conteúdo para DRAM de CPU.
19 mar, 09:00
19 mar, 09:00
17 mar, 09:00
26 fev, 18:39
26 fev, 18:39