RESEARCHarXiv CS.CL·8d atrás
Configurable Reward Model for Balanced Safety Alignment
Este artigo apresenta o Modelo de Recompensa de Segurança Configurável (CSRM) para alinhar LLMs com requisitos de segurança em constante evolução. O CSRM melhora a generalização para configurações de segurança não vistas, sendo otimizado para conformidade de segurança calibrada e modelagem de recompensa, alcançando desempenho de ponta em benchmarks.
27