RESEARCH28
Expert Upcycling: Shifting the Compute-Efficient Frontier of Mixture-of-Experts
arXiv CS.LG·23 avril 2026
«Expert Upcycling» propose une méthode pour étendre progressivement la capacité des Mixture-of-Experts (MoE) dans les grands modèles de langage pendant le pré-entraînement continu. Cette approche augmente le nombre d'experts par duplication et extension du routeur pour une initialisation à chaud, visant à réduire les coûts d'entraînement tout en conservant le coût d'inférence par jeton.
Lire l'original ↗