heapsort
RESEARCH27

ReVision: Scaling Computer-Use Agents via Temporal Visual Redundancy Reduction

arXiv CS.CL·13 de mayo de 2026

ReVision introduce un método para escalar agentes de uso de computadora al reducir la redundancia visual temporal en trayectorias de interacción. Utiliza un selector de parches aprendido para eliminar tokens visuales redundantes, reduciendo el uso de tokens en aproximadamente un 46% y mejorando la eficiencia de los modelos de lenguaje multimodales en los benchmarks.

Leer original