heapsort
ARTICLE↑ trending38

If Dense Models are better for Coding, why are Qwen-Coders MoE?

Reddit r/LocalLLaMA·11 avril 2026

L'auteur s'interroge sur la décision de Qwen d'utiliser l'architecture Mixture-of-Experts (MoE) pour ses modèles de codage, plutôt que des modèles denses plus précis. Il spécule que ce choix pourrait être lié à la vitesse d'inférence et déplore l'absence d'un successeur 14B.

Lire l'original