RESEARCH27

Configurable Reward Model for Balanced Safety Alignment

arXiv CS.CL·1 juin 2026

Cet article introduit le Modèle de Récompense de Sécurité Configurable (CSRM) pour relever le défi d'aligner les LLM avec des exigences de sécurité hétérogènes et évolutives. Le CSRM améliore considérablement la généralisation aux configurations de sécurité inédites en étant optimisé conjointement pour la conformité de sécurité calibrée et la modélisation des récompenses, atteignant des performances de pointe sur les benchmarks.

Generalization machine learning large language models Reward Models AI safety

Lire l'original ↗