RESEARCH28
Unlocking Feature Learning in Gated Delta Networks at Scale
arXiv CS.LG·4. Juni 2026
Dieses Papier leitet Skalierungsregeln für Gated Delta Networks ab, um das Training und die Skalierung von Large Language Models zu optimieren. Experimente bestätigen, dass die vorgeschlagenen Konfigurationen einen stabilen Lerntransfer über verschiedene Modellbreiten hinweg ermöglichen.
Original lesen ↗