RESEARCH27
Configurable Reward Model for Balanced Safety Alignment
arXiv CS.CL·1 de junho de 2026
Este artigo apresenta o Modelo de Recompensa de Segurança Configurável (CSRM) para alinhar LLMs com requisitos de segurança em constante evolução. O CSRM melhora a generalização para configurações de segurança não vistas, sendo otimizado para conformidade de segurança calibrada e modelagem de recompensa, alcançando desempenho de ponta em benchmarks.
Ler original ↗