RESEARCH61

Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry

arXiv CS.LG·1 de maio de 2026

Esta pesquisa examina os mecanismos de recusa em modelos de linguagem alinhados à segurança, comparando o ajuste fino supervisionado com o ajuste fino adversário dinâmico estilo R2D2. Os resultados indicam que o R2D2 inicialmente alcança alta recusa em HarmBench, mas depois reabre parcialmente, enquanto o SFT permanece menos robusto.

language-modelsmodel robustnessfine-tuningadversarial trainingAI safety

Ler original ↗