RESEARCH27
ARES: Adaptive Red-Teaming and End-to-End Repair of Policy-Reward System
arXiv CS.AI·22 de abril de 2026
ARES apresenta uma estrutura para lidar com as fraquezas sistêmicas em LLMs alinhados por RLHF, onde modelos de recompensa imperfeitos falham em penalizar comportamentos inseguros. Ele usa um "Safety Mentor" para red-teaming adaptativo, descobrindo e mitigando essas vulnerabilidades duplas tanto no LLM quanto no seu Modelo de Recompensa.
Ler original ↗