RESEARCHarXiv CS.AI·il y a 14j
JobBench: Aligning Agent Work With Human Will
JobBench est un nouveau benchmark qui évalue les agents d'IA sur des flux de travail identifiés par des experts comme hautement prioritaires pour la délégation, couvrant 130 tâches dans 35 professions. Il vise à faire passer l'effet sur le marché du travail du remplacement à l'amélioration, en construisant des agents qui font ce que les humains souhaitent réellement déléguer.
27