notch
ARTICLE23

Qwen2.5-Max: Exploring the Intelligence of Large-scale MoE Model

Qwen Blog·28 de janeiro de 2025

O conteúdo explora a importância da escalabilidade contínua de dados e modelos (densos ou Mixture-of-Expert) para aprimorar a inteligência artificial, destacando a experiência limitada da comunidade na área. Menciona que detalhes críticos de escalabilidade foram recentemente divulgados pelo DeepSeek V3 e que o Qwen2 está em desenvolvimento.

IAmodelos de linguagemMoE
Ler original