O PixelRAG processa páginas web como imagens, aumentando a precisão de agentes de IA em até 18% e reduzindo o consumo de tokens em 10 vezes.
Pesquisadores desenvolveram o PixelRAG, uma nova abordagem para o processamento de dados da web que substitui os tradicionais parsers de texto por modelos de visão-linguagem (VLMs). Ao analisar capturas de tela das páginas, o sistema preserva sinais visuais e estruturais que frequentemente são perdidos durante a conversão para HTML, resultando em uma melhoria de até 18,1% na precisão de tarefas de agentes de IA. Além do ganho de performance, a solução oferece uma vantagem econômica significativa ao reduzir o consumo de tokens em até 10 vezes. A recomendação dos desenvolvedores é a adoção de um modelo híbrido, que combina busca visual e textual, visando facilitar a implementação prática em ambientes corporativos que dependem de pipelines de RAG para extração de informações complexas.
28 mai, 19:05
22 mai, 18:35
21 mai, 16:06
17 mai, 15:03
15 mai, 18:35
Carregando comentários...