notch
ARTICLE23

Global-batch load balance almost free lunch to improve your MoE LLM training

Qwen Blog·20 de janeiro de 2025

O conteúdo introduz a arquitetura Mixture-of-Experts (MoE) como uma técnica popular para escalar parâmetros de modelos. Ele descreve a camada MoE consistindo de um roteador e um grupo de experts, onde apenas um subconjunto é ativado para processar uma entrada.

deep learningtrainingMoENeural ArchitectureLLM
Ler original