RESEARCH29

HealthCraft: A Reinforcement Learning Safety Environment for Emergency Medicine

arXiv CS.LG·May 23, 2026

The paper introduces HealthCraft, a public reinforcement-learning environment designed to evaluate the safety of frontier language models in emergency medicine. It focuses on trajectory-level safety, tool misuse, and clinical pressure, built on a FHIR R4 world state and offering 195 tasks for comprehensive assessment.

LLMs evaluation reinforcement learning medical AI AI safety

Read original ↗