RESEARCHarXiv CS.CL·vor 8T
Configurable Reward Model for Balanced Safety Alignment
Dieses Papier stellt das Konfigurierbare Sicherheitsbelohnungsmodell (CSRM) vor, um die Herausforderung der Ausrichtung von LLMs an heterogene und sich schnell entwickelnde Sicherheitsanforderungen zu bewältigen. CSRM verbessert die Generalisierung auf zuvor ungesehene Sicherheitskonfigurationen erheblich, indem es für kalibrierte Sicherheitskonformität und Belohnungsmodellierung optimiert wird, und erzielt dabei eine hochmoderne Leistung auf Benchmarks.
27