Pesquisadores criam LCLMs, arquitetura que reduz custos e acelera o processamento de LLMs sem perda de precisão.
Pesquisadores desenvolveram os Modelos de Linguagem de Contexto Latente (LCLMs), uma arquitetura inovadora que permite comprimir o contexto de entrada de LLMs em até 16 vezes. Ao utilizar um sistema encoder-decoder para processar tokens antes da decodificação, a tecnologia reduz drasticamente o consumo de memória e a carga computacional, mantendo a precisão dos resultados. Em testes práticos, a solução apresentou um desempenho 8,8 vezes superior aos métodos convencionais de cache KV, superando benchmarks de referência como o RULER. A disponibilidade do projeto em código aberto no HuggingFace facilita a adoção por desenvolvedores que buscam otimizar stacks de agentes de IA. Embora a compressão de cadeias de raciocínio complexas ainda represente um desafio técnico, a inovação marca um avanço significativo na eficiência operacional de modelos de linguagem em ambientes de produção.
29 mai, 16:36
11 mai, 20:34
7 mai, 17:34
5 mai, 17:07
29 abr, 14:07
Carregando comentários...