RESEARCHarXiv CS.CL·hace 9d
Configurable Reward Model for Balanced Safety Alignment
Este artículo presenta el Modelo de Recompensa de Seguridad Configurable (CSRM) para abordar el desafío de alinear los LLMs con requisitos de seguridad heterogéneos y cambiantes. El CSRM mejora sustancialmente la generalización a configuraciones de seguridad no vistas al ser optimizado conjuntamente para el cumplimiento de seguridad calibrado y el modelado de recompensas, logrando un rendimiento de vanguardia en benchmarks.
27