RESEARCH28

Unlocking Feature Learning in Gated Delta Networks at Scale

arXiv CS.LG·4 juin 2026

Cet article dérive des règles de mise à l'échelle pour les réseaux Delta à portes (Gated Delta Networks) afin d'optimiser l'entraînement des grands modèles linguistiques (Large Language Models). Les expériences confirment que les configurations proposées permettent un transfert stable du taux d'apprentissage sur différentes largeurs de modèle.

neural networks learning Hyperparameter Tuning machine learning large language models

Lire l'original ↗