RESEARCH28
Expert Upcycling: Shifting the Compute-Efficient Frontier of Mixture-of-Experts
arXiv CS.LG·23. April 2026
„Expert Upcycling“ schlägt eine Methode zur schrittweisen Erweiterung der Mixture-of-Experts (MoE)-Kapazität in großen Sprachmodellen während des kontinuierlichen Vortrainings vor. Sie erhöht die Anzahl der Experten durch Duplizierung und Router-Erweiterung für eine warme Initialisierung, um Trainingskosten zu senken und die Inferenzkosten pro Token beizubehalten.
Original lesen ↗