RESEARCH27
A Self-Attentive Meta-Optimizer with Group-Adaptive Learning Rates and Weight Decay
arXiv CS.LG·7 de mayo de 2026
MetaAdamW es un nuevo optimizador que utiliza un mecanismo de autoatención para ajustar dinámicamente las tasas de aprendizaje y la caída de peso por grupo de parámetros, superando la limitación de los hiperparámetros uniformes. El módulo de atención se entrena mediante un objetivo de metaaprendizaje que combina la alineación de gradientes, la disminución de la pérdida y la brecha de generalización.
Leer original ↗