← heapsort-ai

GUI

2 items

RESEARCHarXiv CS.LG·vor 1T

MacArena: Benchmarking Computer Use Agents on an Online macOS Environment

MacArena ist ein neuer Benchmark für computergesteuerte Agenten (CUAs), die grafische Benutzeroberflächen (GUIs) unter macOS bedienen, und schließt eine Lücke in der Benchmark-Landschaft für diese Plattform. Er bietet 421 manuell verifizierte Aufgaben in 50 Anwendungen, die nativ auf Apple Silicon laufen, um CUAs über Linux-basierte Benchmarks hinaus herauszufordern.

60