Novo sistema PixelRAG supera parsers de texto e reduz custos de IA

O PixelRAG processa páginas web como imagens, aumentando a precisão de agentes de IA em até 18% e reduzindo o consumo de tokens em 10 vezes.

Novo sistema PixelRAG supera parsers de texto e reduz custos de IA — Foto: Venturebeat

12/06 às 13:05

Pontos principais

O sistema processa capturas de tela de páginas web diretamente, preservando elementos visuais e estruturais perdidos em parsers HTML.
Testes em seis benchmarks, como a Wikipedia, apontaram um ganho de até 18,1% na precisão em relação a métodos baseados apenas em texto.
A arquitetura utiliza modelos de visão-linguagem (VLMs) para interpretar layouts, eliminando a necessidade de conversão para texto.
A tecnologia permite uma redução de até 10 vezes no uso de tokens, tornando pipelines de RAG mais eficientes e econômicos.

Pesquisadores desenvolveram o PixelRAG, uma nova abordagem para o processamento de dados da web que substitui os tradicionais parsers de texto por modelos de visão-linguagem (VLMs). Ao analisar capturas de tela das páginas, o sistema preserva sinais visuais e estruturais que frequentemente são perdidos durante a conversão para HTML, resultando em uma melhoria de até 18,1% na precisão de tarefas de agentes de IA. Além do ganho de performance, a solução oferece uma vantagem econômica significativa ao reduzir o consumo de tokens em até 10 vezes. A recomendação dos desenvolvedores é a adoção de um modelo híbrido, que combina busca visual e textual, visando facilitar a implementação prática em ambientes corporativos que dependem de pipelines de RAG para extração de informações complexas.

Tópicos relacionados

Inteligência Artificial

Fontes

PixelRAG beats text parsers on accuracy and cuts AI agent token costs 10x

Venturebeat • 12 jun, 12:39

Comentários

Carregando comentários...

Home / Tecnologia

Novo sistema PixelRAG supera parsers de texto e reduz custos de IA

O PixelRAG processa páginas web como imagens, aumentando a precisão de agentes de IA em até 18% e reduzindo o consumo de tokens em 10 vezes.

12/06 às 13:05

Pontos principais

O sistema processa capturas de tela de páginas web diretamente, preservando elementos visuais e estruturais perdidos em parsers HTML.
Testes em seis benchmarks, como a Wikipedia, apontaram um ganho de até 18,1% na precisão em relação a métodos baseados apenas em texto.
A arquitetura utiliza modelos de visão-linguagem (VLMs) para interpretar layouts, eliminando a necessidade de conversão para texto.
A tecnologia permite uma redução de até 10 vezes no uso de tokens, tornando pipelines de RAG mais eficientes e econômicos.

Tópicos relacionados

Inteligência Artificial

Fontes

PixelRAG beats text parsers on accuracy and cuts AI agent token costs 10x

Venturebeat • 12 jun, 12:39

Comentários

Carregando comentários...

Novo sistema PixelRAG supera parsers de texto e reduz custos de IA

Pontos principais

Tópicos relacionados

Fontes

PixelRAG beats text parsers on accuracy and cuts AI agent token costs 10x

Leia também

Nova ferramenta automatiza estratégias de raciocínio em LLMs

Nova técnica DCI permite que agentes de IA busquem dados via terminal

Novo módulo delta-mem aprimora memória de trabalho em agentes de IA

Arquiteturas de Graph RAG superam limitações da busca vetorial

Novo framework RecursiveMAS acelera inferência de agentes de IA

Comentários

Novo sistema PixelRAG supera parsers de texto e reduz custos de IA

Pontos principais

Tópicos relacionados

Fontes

PixelRAG beats text parsers on accuracy and cuts AI agent token costs 10x

Leia também

Nova ferramenta automatiza estratégias de raciocínio em LLMs

Nova técnica DCI permite que agentes de IA busquem dados via terminal

Novo módulo delta-mem aprimora memória de trabalho em agentes de IA

Arquiteturas de Graph RAG superam limitações da busca vetorial

Novo framework RecursiveMAS acelera inferência de agentes de IA

Comentários