heapsort
RESEARCH27

A Self-Attentive Meta-Optimizer with Group-Adaptive Learning Rates and Weight Decay

arXiv CS.LG·7 de mayo de 2026

MetaAdamW es un nuevo optimizador que utiliza un mecanismo de autoatención para ajustar dinámicamente las tasas de aprendizaje y la caída de peso por grupo de parámetros, superando la limitación de los hiperparámetros uniformes. El módulo de atención se entrena mediante un objetivo de metaaprendizaje que combina la alineación de gradientes, la disminución de la pérdida y la brecha de generalización.

Leer original