Quebrando o limite de 100M tokens: arquitetura MSA da EverMind alcança memória de longo prazo eficiente para LLMs
PR Newswire: Comunicado oficial da EverMind detalhando as quatro inovações do MSA e resultados em benchmarks.
|
19/03 às 09:00
Pontos principais
- Menos de 9% de degradação ao escalar de 16K a 100M tokens
- Modelo de 4B supera RAG por 14,8-16,0 pontos percentuais
- Document-wise RoPE permite extrapolação de modelos treinados em 64K para 100M tokens
Mencionado nesta matéria
Organizações
EverMindShanda Group
Lugares
San Mateo
