Adversarial Training

3 items

RESEARCHarXiv CS.LG·il y a 5j

Pseudospectral Bounds for Transient Amplification in Coupled Gradient Descent

L'article développe une théorie pseudospectrale précise pour les systèmes de descente de gradient couplés avec des jacobiens triangulaires par blocs, pertinents pour l'optimisation bilivellulaire et l'entraînement contradictoire. Il établit des bornes pour l'amplification transitoire et caractérise les seuils de couplage critiques pour l'instabilité spectrale.

Gradient Descent Optimization Numerical Analysis Machine Learning Theory

RESEARCHarXiv CS.LG·01/05/2026

Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry

Cette recherche étudie les mécanismes de refus dans les modèles de langage alignés sur la sécurité, en comparant le réglage fin supervisé et le réglage fin adversaire dynamique de type R2D2. Les résultats montrent que R2D2 obtient initialement un fort refus sur HarmBench mais se rouvre partiellement par la suite, tandis que le SFT reste moins robuste.

language models model robustness Fine-tuning Adversarial Training

RESEARCHarXiv CS.LG·il y a 20j

PROWL: Prioritized Regret-Driven Optimization for World Model Learning

PROWL introduit un programme adversarial contraint par KL où une politique expose des trajectoires à forte erreur d'un modèle du monde basé sur la diffusion. Cette méthode améliore la robustesse du modèle en se concentrant sur les transitions rares et critiques pour l'interaction, transformant les échecs en un signal d'entraînement stable sans dériver vers l'exploitation hors distribution.

reinforcement learning model learning security World Models