RESEARCH27

Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry

arXiv CS.LG·1. Mai 2026

Diese Forschung untersucht die Ablehnungsmechanismen in sicherheitsausgerichteten Sprachmodellen, indem sie überwachtes Fine-Tuning mit R2D2-ähnlichem dynamischen adversariellen Fine-Tuning vergleicht. Die Ergebnisse zeigen, dass R2D2 anfangs eine starke Ablehnung auf HarmBench erreicht, sich dann aber teilweise wieder öffnet, während SFT weniger robust bleibt.

language models model robustness Fine-tuning Adversarial Training AI safety

Original lesen ↗