heapsort
RESEARCH27

A Self-Attentive Meta-Optimizer with Group-Adaptive Learning Rates and Weight Decay

arXiv CS.LG·7 mai 2026

MetaAdamW est un nouvel optimiseur qui utilise un mécanisme d'auto-attention pour ajuster dynamiquement les taux d'apprentissage et la décroissance du poids par groupe de paramètres, remédiant à la limitation des hyperparamètres uniformes. Le module d'attention est entraîné via un objectif de méta-apprentissage combinant l'alignement du gradient, la diminution de la perte et l'écart de généralisation.

Lire l'original