RESEARCH28

Expert Upcycling: Shifting the Compute-Efficient Frontier of Mixture-of-Experts

arXiv CS.LG·23. April 2026

„Expert Upcycling“ schlägt eine Methode zur schrittweisen Erweiterung der Mixture-of-Experts (MoE)-Kapazität in großen Sprachmodellen während des kontinuierlichen Vortrainings vor. Sie erhöht die Anzahl der Experten durch Duplizierung und Router-Erweiterung für eine warme Initialisierung, um Trainingskosten zu senken und die Inferenzkosten pro Token beizubehalten.

Model Architecture training-optimization large language models

Original lesen ↗