Adversarial Training

3 items

RESEARCHarXiv CS.LG·vor 5T

Pseudospectral Bounds for Transient Amplification in Coupled Gradient Descent

Die Arbeit entwickelt eine scharfe pseudospektrale Theorie für gekoppelte Gradientenabstiegs-Systeme mit block-dreieckigen Jacobi-Matrizen, die für Bilevel-Optimierung und adversarielles Training relevant sind. Sie liefert Schranken für transiente Verstärkung und charakterisiert kritische Kopplungsschwellen für spektrale Instabilität.

Gradient Descent Optimization Numerical Analysis Machine Learning Theory

RESEARCHarXiv CS.LG·5/1/2026

Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry

Diese Forschung untersucht die Ablehnungsmechanismen in sicherheitsausgerichteten Sprachmodellen, indem sie überwachtes Fine-Tuning mit R2D2-ähnlichem dynamischen adversariellen Fine-Tuning vergleicht. Die Ergebnisse zeigen, dass R2D2 anfangs eine starke Ablehnung auf HarmBench erreicht, sich dann aber teilweise wieder öffnet, während SFT weniger robust bleibt.

language models model robustness Fine-tuning Adversarial Training

RESEARCHarXiv CS.LG·vor 20T

PROWL: Prioritized Regret-Driven Optimization for World Model Learning

PROWL führt ein KL-beschränktes adversarielles Curriculum ein, bei dem eine Policy fehlerintensive Trajektorien eines diffusionsbasierten Weltmodells aufdeckt. Diese Methode verbessert die Modellrobustheit, indem sie sich auf seltene, interaktionskritische Übergänge konzentriert und Fehler in ein stabiles, verteilungsnahes Trainingssignal umwandelt, ohne in Out-of-Distribution-Exploitation abzudriften.

reinforcement learning model learning security World Models