RESEARCH28

Expert Upcycling: Shifting the Compute-Efficient Frontier of Mixture-of-Experts

arXiv CS.LG·23 avril 2026

«Expert Upcycling» propose une méthode pour étendre progressivement la capacité des Mixture-of-Experts (MoE) dans les grands modèles de langage pendant le pré-entraînement continu. Cette approche augmente le nombre d'experts par duplication et extension du routeur pour une initialisation à chaud, visant à réduire les coûts d'entraînement tout en conservant le coût d'inférence par jeton.

Model Architecture training-optimization large language models

Lire l'original ↗