Reward Models — artigos, notícias e pesquisas de IA

RESEARCHarXiv CS.CL·8d atrás

Configurable Reward Model for Balanced Safety Alignment

Este artigo apresenta o Modelo de Recompensa de Segurança Configurável (CSRM) para alinhar LLMs com requisitos de segurança em constante evolução. O CSRM melhora a generalização para configurações de segurança não vistas, sendo otimizado para conformidade de segurança calibrada e modelagem de recompensa, alcançando desempenho de ponta em benchmarks.

Generalization machine learning large language models Reward Models