RESEARCHarXiv CS.LG·23/04/2026
Expert Upcycling: Shifting the Compute-Efficient Frontier of Mixture-of-Experts
«Expert Upcycling» propose une méthode pour étendre progressivement la capacité des Mixture-of-Experts (MoE) dans les grands modèles de langage pendant le pré-entraînement continu. Cette approche augmente le nombre d'experts par duplication et extension du routeur pour une initialisation à chaud, visant à réduire les coûts d'entraînement tout en conservant le coût d'inférence par jeton.
28