heapsort
RESEARCH28

Expert Upcycling: Shifting the Compute-Efficient Frontier of Mixture-of-Experts

arXiv CS.LG·23 de abril de 2026

O artigo propõe o "expert upcycling", um método para expandir a capacidade de Mixture-of-Experts (MoE) em modelos de linguagem grandes durante o pré-treinamento contínuo. Ele aumenta o número de experts por duplicação e extensão do roteador, visando reduzir custos de treinamento e manter o custo de inferência por token.

Ler original