← heapsort-ai

Reward Models

1 items

RESEARCHarXiv CS.CL·8d atrás

Configurable Reward Model for Balanced Safety Alignment

Este artigo apresenta o Modelo de Recompensa de Segurança Configurável (CSRM) para alinhar LLMs com requisitos de segurança em constante evolução. O CSRM melhora a generalização para configurações de segurança não vistas, sendo otimizado para conformidade de segurança calibrada e modelagem de recompensa, alcançando desempenho de ponta em benchmarks.

27