training-optimization — articles, actualités et recherches IA

RESEARCHarXiv CS.LG·23/04/2026

Expert Upcycling: Shifting the Compute-Efficient Frontier of Mixture-of-Experts

«Expert Upcycling» propose une méthode pour étendre progressivement la capacité des Mixture-of-Experts (MoE) dans les grands modèles de langage pendant le pré-entraînement continu. Cette approche augmente le nombre d'experts par duplication et extension du routeur pour une initialisation à chaud, visant à réduire les coûts d'entraînement tout en conservant le coût d'inférence par jeton.

Model Architecture training-optimization large language models