ReVision: Scaling Computer-Use Agents via Temporal Visual Redundancy Reduction
ReVision introduce un método para escalar agentes de uso de computadora al reducir la redundancia visual temporal en trayectorias de interacción. Utiliza un selector de parches aprendido para eliminar tokens visuales redundantes, reduciendo el uso de tokens en aproximadamente un 46% y mejorando la eficiencia de los modelos de lenguaje multimodales en los benchmarks.