RESEARCH27

ARES: Adaptive Red-Teaming and End-to-End Repair of Policy-Reward System

arXiv CS.AI·22 de abril de 2026

ARES presenta un marco para abordar las debilidades sistémicas en LLMs alineados con RLHF, donde los Modelos de Recompensa imperfectos no logran penalizar comportamientos inseguros. Utiliza un "Safety Mentor" para red-teaming adaptativo, descubriendo y mitigando estas vulnerabilidades duales tanto en el LLM como en su Modelo de Recompensa.

LLMs reinforcement learning security

Leer original ↗