RESEARCH27
Information-Theoretic Generalization Bounds for Stochastic Gradient Descent with Predictable Virtual Noise
arXiv CS.LG·4 mai 2026
Cet article introduit des perturbations virtuelles prévisibles et adaptatives à l'historique pour améliorer les bornes de généralisation basées sur la théorie de l'information pour la descente de gradient stochastique. Cette nouvelle approche permet aux covariances de perturbation de dépendre dynamiquement de l'historique passé du SGD, résolvant les limitations des méthodes existantes qui nécessitent des covariances fixes.
Lire l'original ↗