RESEARCHarXiv CS.AI·vor 14T
JobBench: Aligning Agent Work With Human Will
JobBench ist ein neuer Benchmark, der KI-Agenten anhand von Experten als hochprioritär für die Delegation identifizierten Arbeitsabläufen bewertet, der 130 Aufgaben in 35 Berufen abdeckt. Ziel ist es, den Arbeitsmarkteffekt von Substitution auf Verbesserung zu verlagern, indem Agenten entwickelt werden, die das tun, was Menschen tatsächlich delegieren möchten.
27