RESEARCH27
ARES: Adaptive Red-Teaming and End-to-End Repair of Policy-Reward System
arXiv CS.AI·22 avril 2026
ARES introduit un cadre pour traiter les faiblesses systémiques dans les LLMs alignés par RLHF, où les modèles de récompense imparfaits ne parviennent pas à pénaliser les comportements dangereux. Il utilise un "Safety Mentor" pour un red-teaming adaptatif afin de découvrir et d'atténuer ces doubles vulnérabilités à la fois dans le LLM et son modèle de récompense.
Lire l'original ↗