RESEARCH28
Unlocking Feature Learning in Gated Delta Networks at Scale
arXiv CS.LG·4 juin 2026
Cet article dérive des règles de mise à l'échelle pour les réseaux Delta à portes (Gated Delta Networks) afin d'optimiser l'entraînement des grands modèles linguistiques (Large Language Models). Les expériences confirment que les configurations proposées permettent un transfert stable du taux d'apprentissage sur différentes largeurs de modèle.
Lire l'original ↗