training-optimization — artigos, notícias e pesquisas de IA

RESEARCHarXiv CS.LG·23/04/2026

Expert Upcycling: Shifting the Compute-Efficient Frontier of Mixture-of-Experts

O artigo propõe o "expert upcycling", um método para expandir a capacidade de Mixture-of-Experts (MoE) em modelos de linguagem grandes durante o pré-treinamento contínuo. Ele aumenta o número de experts por duplicação e extensão do roteador, visando reduzir custos de treinamento e manter o custo de inferência por token.

Model Architecture training-optimization large language models