RESEARCH27

ARES: Adaptive Red-Teaming and End-to-End Repair of Policy-Reward System

arXiv CS.AI·22 avril 2026

ARES introduit un cadre pour traiter les faiblesses systémiques dans les LLMs alignés par RLHF, où les modèles de récompense imparfaits ne parviennent pas à pénaliser les comportements dangereux. Il utilise un "Safety Mentor" pour un red-teaming adaptatif afin de découvrir et d'atténuer ces doubles vulnérabilités à la fois dans le LLM et son modèle de récompense.

LLMs reinforcement learning security

Lire l'original ↗