heapsort
RESEARCH60

MacArena: Benchmarking Computer Use Agents on an Online macOS Environment

arXiv CS.LG·8. Juni 2026

MacArena ist ein neuer Benchmark für computergesteuerte Agenten (CUAs), die grafische Benutzeroberflächen (GUIs) unter macOS bedienen, und schließt eine Lücke in der Benchmark-Landschaft für diese Plattform. Er bietet 421 manuell verifizierte Aufgaben in 50 Anwendungen, die nativ auf Apple Silicon laufen, um CUAs über Linux-basierte Benchmarks hinaus herauszufordern.

Original lesen