RESEARCH28

CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

arXiv CS.CL·19 de mayo de 2026

Este artículo introduce CHI-Bench, un nuevo benchmark para evaluar la automatización de flujos de trabajo complejos y de largo alcance en el sector de la salud por agentes de IA. Aborda las brechas existentes en los benchmarks actuales al centrarse en la densidad de políticas, la composición multi-rol y la interacción multilateral en operaciones sanitarias realistas.

Workflows Healthcare Benchmarks automation AI agents

Leer original ↗