RESEARCHarXiv CS.AI·14d atrás
JobBench: Aligning Agent Work With Human Will
JobBench é um novo benchmark que avalia agentes de IA em fluxos de trabalho identificados por especialistas como de alta prioridade para delegação, abrangendo 130 tarefas em 35 ocupações. O objetivo é mudar o efeito no mercado de trabalho da substituição para o aprimoramento, construindo agentes que façam o que os humanos realmente desejam delegar.
27