heapsort
RESEARCH60

MacArena: Benchmarking Computer Use Agents on an Online macOS Environment

arXiv CS.LG·8 juin 2026

MacArena est un nouveau benchmark pour les agents d'utilisation informatique (CUAs) opérant des interfaces utilisateur graphiques (GUIs) sur macOS, comblant le manque de benchmarks pour cette plateforme. Il propose 421 tâches vérifiées sur 50 applications, fonctionnant nativement sur Apple Silicon, pour défier les CUAs au-delà des benchmarks basés sur Linux.

Lire l'original