RESEARCH27

Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry

arXiv CS.LG·1 mai 2026

Cette recherche étudie les mécanismes de refus dans les modèles de langage alignés sur la sécurité, en comparant le réglage fin supervisé et le réglage fin adversaire dynamique de type R2D2. Les résultats montrent que R2D2 obtient initialement un fort refus sur HarmBench mais se rouvre partiellement par la suite, tandis que le SFT reste moins robuste.

language models model robustness Fine-tuning Adversarial Training AI safety

Lire l'original ↗