RESEARCHarXiv CS.LG·23/04/2026
Expert Upcycling: Shifting the Compute-Efficient Frontier of Mixture-of-Experts
O artigo propõe o "expert upcycling", um método para expandir a capacidade de Mixture-of-Experts (MoE) em modelos de linguagem grandes durante o pré-treinamento contínuo. Ele aumenta o número de experts por duplicação e extensão do roteador, visando reduzir custos de treinamento e manter o custo de inferência por token.
28