RESEARCH27

Configurable Reward Model for Balanced Safety Alignment

arXiv CS.CL·1 de junho de 2026

Este artigo apresenta o Modelo de Recompensa de Segurança Configurável (CSRM) para alinhar LLMs com requisitos de segurança em constante evolução. O CSRM melhora a generalização para configurações de segurança não vistas, sendo otimizado para conformidade de segurança calibrada e modelagem de recompensa, alcançando desempenho de ponta em benchmarks.

Generalization machine learning large language models Reward Models AI safety

Ler original ↗