RESEARCH27
ReVision: Scaling Computer-Use Agents via Temporal Visual Redundancy Reduction
arXiv CS.CL·13 de maio de 2026
ReVision apresenta um método para escalar agentes de uso de computador, reduzindo a redundância visual temporal em trajetórias de interação. Ele emprega um seletor de patches aprendido para remover tokens visuais redundantes, cortando o uso de tokens em aproximadamente 46% e melhorando a eficiência para modelos de linguagem multimodais em benchmarks.
Ler original ↗