RESEARCH27
Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry
arXiv CS.LG·1 mai 2026
Cette recherche étudie les mécanismes de refus dans les modèles de langage alignés sur la sécurité, en comparant le réglage fin supervisé et le réglage fin adversaire dynamique de type R2D2. Les résultats montrent que R2D2 obtient initialement un fort refus sur HarmBench mais se rouvre partiellement par la suite, tandis que le SFT reste moins robuste.
Lire l'original ↗