RESEARCH28
CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?
arXiv CS.CL·19 de maio de 2026
Este artigo apresenta o CHI-Bench, um novo benchmark para avaliar a automação de fluxos de trabalho complexos e de longo prazo na área da saúde por agentes de IA. Ele aborda deficiências atuais em benchmarks ao focar em densidade de políticas, composição de múltiplos papéis e interação multilateral em operações de saúde realistas.
Ler original ↗