MacArena: Benchmarking Computer Use Agents on an Online macOS Environment
MacArena es un nuevo benchmark para agentes de uso de computadoras (CUAs) que operan interfaces gráficas de usuario (GUIs) en macOS, abordando la falta de benchmarks adecuados para la plataforma. Ofrece 421 tareas verificadas en 50 aplicaciones, ejecutándose de forma nativa en Apple Silicon, para desafiar a los CUAs más allá de los benchmarks basados en Linux.