← heapsort-ai

Reward Models

1 items

RESEARCHarXiv CS.CL·hace 9d

Configurable Reward Model for Balanced Safety Alignment

Este artículo presenta el Modelo de Recompensa de Seguridad Configurable (CSRM) para abordar el desafío de alinear los LLMs con requisitos de seguridad heterogéneos y cambiantes. El CSRM mejora sustancialmente la generalización a configuraciones de seguridad no vistas al ser optimizado conjuntamente para el cumplimiento de seguridad calibrado y el modelado de recompensas, logrando un rendimiento de vanguardia en benchmarks.

27