Step-level Optimization for Efficient Computer-use Agents
Cette recherche souligne l'inefficacité des agents informatiques actuels, qui surutilisent de grands modèles multimodaux pour chaque interaction d'interface graphique. Elle soutient que les tâches sont hétérogènes, les étapes routinières nécessitant moins de calcul, tandis que les erreurs se concentrent sur les moments à haut risque comme les blocages ou la dérive sémantique, exigeant une optimisation ciblée.