RESEARCH28
Expert Upcycling: Shifting the Compute-Efficient Frontier of Mixture-of-Experts
arXiv CS.LG·23 de abril de 2026
«Expert Upcycling» introduce un método para expandir progresivamente la capacidad de Mixture-of-Experts (MoE) en grandes modelos de lenguaje durante el pre-entrenamiento continuo. Aumenta el número de expertos mediante duplicación y extensión del enrutador para una inicialización optimizada, con el fin de reducir los costos de entrenamiento y mantener el costo de inferencia por token.
Leer original ↗