RESEARCH28

Unlocking Feature Learning in Gated Delta Networks at Scale

arXiv CS.LG·4 de junio de 2026

Este artículo deriva reglas de escalado para Redes Delta Gated para optimizar el entrenamiento de Large Language Models. Los experimentos confirman que las configuraciones propuestas permiten una transferencia estable de la tasa de aprendizaje en diferentes anchos de modelo.

neural networks learning Hyperparameter Tuning machine learning large language models

Leer original ↗