RESEARCH61
Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry
arXiv CS.LG·1 de maio de 2026
Esta pesquisa examina os mecanismos de recusa em modelos de linguagem alinhados à segurança, comparando o ajuste fino supervisionado com o ajuste fino adversário dinâmico estilo R2D2. Os resultados indicam que o R2D2 inicialmente alcança alta recusa em HarmBench, mas depois reabre parcialmente, enquanto o SFT permanece menos robusto.
language-modelsmodel robustnessfine-tuningadversarial trainingAI safety
Ler original ↗