RESEARCH27
Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry
arXiv CS.LG·1. Mai 2026
Diese Forschung untersucht die Ablehnungsmechanismen in sicherheitsausgerichteten Sprachmodellen, indem sie überwachtes Fine-Tuning mit R2D2-ähnlichem dynamischen adversariellen Fine-Tuning vergleicht. Die Ergebnisse zeigen, dass R2D2 anfangs eine starke Ablehnung auf HarmBench erreicht, sich dann aber teilweise wieder öffnet, während SFT weniger robust bleibt.
Original lesen ↗