RESEARCH28

CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

arXiv CS.CL·19 mai 2026

Cet article présente CHI-Bench, un nouveau benchmark conçu pour tester la capacité des agents d'IA à automatiser des flux de travail complexes, riches en politiques et à long terme dans le domaine de la santé. Il comble des lacunes critiques des benchmarks actuels en se concentrant sur la densité des politiques, la composition multi-rôles et l'interaction multilatérale dans des opérations de santé réalistes.

Workflows Healthcare Benchmarks automation AI agents

Lire l'original ↗