training-optimization — KI-Artikel, Nachrichten & Forschung

RESEARCHarXiv CS.LG·4/23/2026

Expert Upcycling: Shifting the Compute-Efficient Frontier of Mixture-of-Experts

„Expert Upcycling“ schlägt eine Methode zur schrittweisen Erweiterung der Mixture-of-Experts (MoE)-Kapazität in großen Sprachmodellen während des kontinuierlichen Vortrainings vor. Sie erhöht die Anzahl der Experten durch Duplizierung und Router-Erweiterung für eine warme Initialisierung, um Trainingskosten zu senken und die Inferenzkosten pro Token beizubehalten.

Model Architecture training-optimization large language models