RESEARCH27

ARES: Adaptive Red-Teaming and End-to-End Repair of Policy-Reward System

arXiv CS.AI·22. April 2026

ARES stellt ein Framework vor, das systemische Schwachstellen in RLHF-ausgerichteten LLMs adressiert, bei denen unvollkommene Belohnungsmodelle unsicheres Verhalten nicht bestrafen. Es nutzt einen „Safety Mentor“ für adaptives Red-Teaming, um diese dualen Schwachstellen sowohl im LLM als auch in dessen Belohnungsmodell aufzudecken und zu mindern.

LLMs reinforcement learning security

Original lesen ↗