RESEARCH27
Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry
arXiv CS.LG·1 de mayo de 2026
Esta investigación estudia los mecanismos de rechazo en modelos de lenguaje alineados con la seguridad, comparando el ajuste fino supervisado con el ajuste fino adversario dinámico tipo R2D2. Los hallazgos muestran que R2D2 logra un fuerte rechazo inicial en HarmBench, pero luego se reabre parcialmente, mientras que SFT es consistentemente menos robusto.
Leer original ↗