heapsort
RESEARCH60

MacArena: Benchmarking Computer Use Agents on an Online macOS Environment

arXiv CS.LG·8 de junho de 2026

MacArena é um novo benchmark para agentes de uso de computador (CUAs) que operam interfaces gráficas de usuário (GUIs) no macOS, abordando a lacuna de benchmarks para a plataforma. Ele oferece 421 tarefas verificadas em 50 aplicativos, rodando nativamente em Apple Silicon, para desafiar os CUAs além dos benchmarks baseados em Linux.

Ler original