Step-level Optimization for Efficient Computer-use Agents
Diese Forschung beleuchtet die Ineffizienz aktueller Computer-Nutzungs-Agenten, die große multimodale Modelle für jede GUI-Interaktion überbeanspruchen. Es wird argumentiert, dass Aufgaben heterogen sind, wobei Routineschritte weniger Rechenleistung benötigen und Fehler sich in Hochrisikomomenten wie Stillstand oder semantischer Drift konzentrieren, was eine gezielte Optimierung erfordert.