RESEARCH28

Unlocking Feature Learning in Gated Delta Networks at Scale

arXiv CS.LG·4. Juni 2026

Dieses Papier leitet Skalierungsregeln für Gated Delta Networks ab, um das Training und die Skalierung von Large Language Models zu optimieren. Experimente bestätigen, dass die vorgeschlagenen Konfigurationen einen stabilen Lerntransfer über verschiedene Modellbreiten hinweg ermöglichen.

neural networks learning Hyperparameter Tuning Machine Learning large language models

Original lesen ↗