RESEARCH27
Configurable Reward Model for Balanced Safety Alignment
arXiv CS.CL·1 juin 2026
Cet article introduit le Modèle de Récompense de Sécurité Configurable (CSRM) pour relever le défi d'aligner les LLM avec des exigences de sécurité hétérogènes et évolutives. Le CSRM améliore considérablement la généralisation aux configurations de sécurité inédites en étant optimisé conjointement pour la conformité de sécurité calibrée et la modélisation des récompenses, atteignant des performances de pointe sur les benchmarks.
Lire l'original ↗