RESEARCHarXiv CS.LG·2d atrás
MacArena: Benchmarking Computer Use Agents on an Online macOS Environment
MacArena é um novo benchmark para agentes de uso de computador (CUAs) que operam interfaces gráficas de usuário (GUIs) no macOS, abordando a lacuna de benchmarks para a plataforma. Ele oferece 421 tarefas verificadas em 50 aplicativos, rodando nativamente em Apple Silicon, para desafiar os CUAs além dos benchmarks baseados em Linux.
60