RESEARCH27
ARES: Adaptive Red-Teaming and End-to-End Repair of Policy-Reward System
arXiv CS.AI·22. April 2026
ARES stellt ein Framework vor, das systemische Schwachstellen in RLHF-ausgerichteten LLMs adressiert, bei denen unvollkommene Belohnungsmodelle unsicheres Verhalten nicht bestrafen. Es nutzt einen „Safety Mentor“ für adaptives Red-Teaming, um diese dualen Schwachstellen sowohl im LLM als auch in dessen Belohnungsmodell aufzudecken und zu mindern.
Original lesen ↗