RESEARCH27
A Self-Attentive Meta-Optimizer with Group-Adaptive Learning Rates and Weight Decay
arXiv CS.LG·7 mai 2026
MetaAdamW est un nouvel optimiseur qui utilise un mécanisme d'auto-attention pour ajuster dynamiquement les taux d'apprentissage et la décroissance du poids par groupe de paramètres, remédiant à la limitation des hyperparamètres uniformes. Le module d'attention est entraîné via un objectif de méta-apprentissage combinant l'alignement du gradient, la diminution de la perte et l'écart de généralisation.
Lire l'original ↗