ReVision: Scaling Computer-Use Agents via Temporal Visual Redundancy Reduction
ReVision stellt eine Methode zur Skalierung von Computernutzungsagenten vor, indem die zeitliche visuelle Redundanz in Interaktionstrajektorien reduziert wird. Es verwendet einen gelernten Patch-Selektor, um redundante visuelle Token zu entfernen, was den Token-Verbrauch um etwa 46% senkt und die Effizienz für multimodale Sprachmodelle über Benchmarks hinweg verbessert.