RESEARCHarXiv CS.LG·23/4/2026
Expert Upcycling: Shifting the Compute-Efficient Frontier of Mixture-of-Experts
«Expert Upcycling» introduce un método para expandir progresivamente la capacidad de Mixture-of-Experts (MoE) en grandes modelos de lenguaje durante el pre-entrenamiento continuo. Aumenta el número de expertos mediante duplicación y extensión del enrutador para una inicialización optimizada, con el fin de reducir los costos de entrenamiento y mantener el costo de inferencia por token.
28