RESEARCH28

CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

arXiv CS.CL·19 de maio de 2026

Este artigo apresenta o CHI-Bench, um novo benchmark para avaliar a automação de fluxos de trabalho complexos e de longo prazo na área da saúde por agentes de IA. Ele aborda deficiências atuais em benchmarks ao focar em densidade de políticas, composição de múltiplos papéis e interação multilateral em operações de saúde realistas.

Workflows Healthcare Benchmarks automation AI agents

Ler original ↗