Adversarial Training

3 items

RESEARCHarXiv CS.LG·hace 5d

Pseudospectral Bounds for Transient Amplification in Coupled Gradient Descent

El artículo desarrolla una teoría pseudosespectral aguda para sistemas de descenso de gradiente acoplado con jacobianos triangulares por bloques, relevantes para la optimización bilivel y el entrenamiento adversarial. Establece límites para la amplificación transitoria y caracteriza los umbrales de acoplamiento críticos para la inestabilidad espectral.

Gradient Descent Optimization Numerical Analysis Machine Learning Theory

RESEARCHarXiv CS.LG·1/5/2026

Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry

Esta investigación estudia los mecanismos de rechazo en modelos de lenguaje alineados con la seguridad, comparando el ajuste fino supervisado con el ajuste fino adversario dinámico tipo R2D2. Los hallazgos muestran que R2D2 logra un fuerte rechazo inicial en HarmBench, pero luego se reabre parcialmente, mientras que SFT es consistentemente menos robusto.

language models model robustness Fine-tuning Adversarial Training

RESEARCHarXiv CS.LG·hace 20d

PROWL: Prioritized Regret-Driven Optimization for World Model Learning

PROWL introduce un currículo adversarial con restricción KL donde una política expone trayectorias de alto error de un modelo de mundo basado en difusión. Este método mejora la robustez del modelo al enfocarse en transiciones raras y críticas para la interacción, convirtiendo los fallos en una señal de entrenamiento estable sin desviarse a la explotación fuera de distribución.

reinforcement learning model learning security World Models