← heapsort-ai

training-optimization

1 items

RESEARCHarXiv CS.LG·23/4/2026

Expert Upcycling: Shifting the Compute-Efficient Frontier of Mixture-of-Experts

«Expert Upcycling» introduce un método para expandir progresivamente la capacidad de Mixture-of-Experts (MoE) en grandes modelos de lenguaje durante el pre-entrenamiento continuo. Aumenta el número de expertos mediante duplicación y extensión del enrutador para una inicialización optimizada, con el fin de reducir los costos de entrenamiento y mantener el costo de inferencia por token.

28