RESEARCH27

Configurable Reward Model for Balanced Safety Alignment

arXiv CS.CL·1 de junio de 2026

Este artículo presenta el Modelo de Recompensa de Seguridad Configurable (CSRM) para abordar el desafío de alinear los LLMs con requisitos de seguridad heterogéneos y cambiantes. El CSRM mejora sustancialmente la generalización a configuraciones de seguridad no vistas al ser optimizado conjuntamente para el cumplimiento de seguridad calibrado y el modelado de recompensas, logrando un rendimiento de vanguardia en benchmarks.

Generalization machine learning large language models Reward Models AI safety

Leer original ↗