EverMind apresenta arquitetura MSA que escala contexto a 100M de tokens

Memory Sparse Attention mantém menos de 9% de degradação ao escalar de 16K a 100M tokens; modelo de 4B supera RAG em 16 pontos.

19/03 às 09:00

Pontos principais

MSA escala contexto de 16K a 100 milhões de tokens com menos de 9% de degradação de desempenho
Modelo de 4B parâmetros superou sistemas RAG complexos por até 16 pontos percentuais
Combina quatro inovações: Memory Sparse Attention, Document-wise RoPE, KV Cache Compression e Memory Interleave

A EverMind apresentou o Memory Sparse Attention (MSA), arquitetura que escala contexto de LLMs a 100 milhões de tokens com menos de 9% de degradação de desempenho. A inovação combina quatro técnicas: sparsificação baseada em conteúdo, Document-wise RoPE para extrapolação de contexto extremo, compressão de KV Cache com paralelismo de memória e Memory Interleave para raciocínio multi-hop.

Um modelo de apenas 4B parâmetros com MSA superou sistemas RAG complexos por até 16 pontos percentuais, inclusive sistemas usando modelos 58 vezes maiores. A arquitetura permite inferência de 100M tokens em apenas duas GPUs A800, offloadando KVs de conteúdo para DRAM de CPU.

O Futuro da Informação

EverMind apresenta arquitetura MSA que escala contexto a 100M de tokens

Pontos principais

Fontes

Quebrando o limite de 100M tokens: arquitetura MSA da EverMind alcança memória de longo prazo eficiente para LLMs

Leia também

MiniMax lança M2.7, modelo autoevolutivo com 100+ ciclos de RL

Samsung e AMD assinam MOU para HBM4; co-CEO declara 'superciclo sem precedentes'

Nvidia lança Dynamo 1.0, Agent Toolkit e AI-Q Blueprint na GTC

Inception Labs lança Mercury 2, primeiro modelo de raciocínio baseado em difusão

Nvidia registra receita recorde de $68,1 bilhões no Q4 e ação cai 5,5% após resultados