Step-level Optimization for Efficient Computer-use Agents
Esta pesquisa aponta a ineficiência dos agentes atuais de uso de computador, que utilizam modelos multimodais grandes para cada interação de interface gráfica. Argumenta que as tarefas são heterogêneas, com passos rotineiros exigindo menos processamento, enquanto erros se concentram em momentos de alto risco como travamentos ou desvio semântico, necessitando otimização direcionada.