RESEARCH28

CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

arXiv CS.CL·19. Mai 2026

Dieses Papier stellt CHI-Bench vor, einen neuen Benchmark zur Bewertung der Automatisierung komplexer, politisch dichter und langfristiger Gesundheitsabläufe durch KI-Agenten. Er behebt kritische Lücken in aktuellen Benchmarks, indem er sich auf Richtliniendichte, Mehrrollenkomposition und multilaterale Interaktion in realistischen Gesundheitsoperationen konzentriert.

Workflows Healthcare Benchmarks automation AI agents

Original lesen ↗