ReVision: Scaling Computer-Use Agents via Temporal Visual Redundancy Reduction
ReVision propose une méthode pour optimiser les agents d'utilisation informatique en réduisant la redondance visuelle temporelle dans les trajectoires d'interaction. Il utilise un sélecteur de patchs appris pour supprimer les jetons visuels redondants, réduisant ainsi l'utilisation des jetons d'environ 46% et améliorant l'efficacité des modèles de langage multimodaux sur plusieurs benchmarks.