RESEARCH28

Expert Upcycling: Shifting the Compute-Efficient Frontier of Mixture-of-Experts

arXiv CS.LG·23 de abril de 2026

«Expert Upcycling» introduce un método para expandir progresivamente la capacidad de Mixture-of-Experts (MoE) en grandes modelos de lenguaje durante el pre-entrenamiento continuo. Aumenta el número de expertos mediante duplicación y extensión del enrutador para una inicialización optimizada, con el fin de reducir los costos de entrenamiento y mantener el costo de inferencia por token.

Model Architecture training-optimization large language models

Leer original ↗