RESEARCH27

Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry

arXiv CS.LG·1 de mayo de 2026

Esta investigación estudia los mecanismos de rechazo en modelos de lenguaje alineados con la seguridad, comparando el ajuste fino supervisado con el ajuste fino adversario dinámico tipo R2D2. Los hallazgos muestran que R2D2 logra un fuerte rechazo inicial en HarmBench, pero luego se reabre parcialmente, mientras que SFT es consistentemente menos robusto.

language models model robustness Fine-tuning Adversarial Training AI safety

Leer original ↗