RESEARCH28
Unlocking Feature Learning in Gated Delta Networks at Scale
arXiv CS.LG·4 de junio de 2026
Este artículo deriva reglas de escalado para Redes Delta Gated para optimizar el entrenamiento de Large Language Models. Los experimentos confirman que las configuraciones propuestas permiten una transferencia estable de la tasa de aprendizaje en diferentes anchos de modelo.
Leer original ↗