MoE

21 items

ARTICLE↑ trendingReddit r/LocalLLaMA·22/04/2026

Forgive my ignorance but how is a 27B model better than 397B?

Un utilisateur exprime sa confusion sur la manière dont un modèle dense de 27 milliards de paramètres pourrait être meilleur qu'un modèle MoE de 397 milliards, en particulier concernant Qwen, et s'interroge sur l'utilité des experts supplémentaires.

AI models Model Architecture MoE Qwen

Forgive my ignorance but how is a 27B model better than 397B?

RESEARCH↑ trendingReddit r/LocalLLaMA·09/04/2026

Used ray tracing cores on my RTX 5070 Ti for LLM routing — 218x speedup, runs entirely on 1 consumer GPU

Um método inovador usa os RT Cores de GPUs para roteamento de especialistas em modelos MoE, resultando em aceleração de 218x e 731x menos VRAM para essa tarefa. A pesquisa também revela que os especialistas MoE se especializam por tipo sintático, e não por tópico como se acreditava.

Otimização de Hardware IA MoE Ray Tracing Cores

ARTICLE↑ trendingReddit r/LocalLLaMA·15/04/2026

Hot Experts in your VRAM! Dynamic expert cache in llama.cpp for 27% faster CPU +GPU token generation with Qwen3.5-122B-A10B compared to layer-based single-GPU partial offload

Cet article détaille une nouvelle stratégie de cache d'experts dynamique dans llama.cpp pour accélérer la génération de jetons sur de grands modèles MoE comme Qwen3.5-122B-A10B. L'approche charge les experts fréquemment utilisés dans la VRAM, ce qui se traduit par une génération de jetons jusqu'à 26,8% plus rapide par rapport au déchargement partiel basé sur les couches.

Token Generation llama.cpp VRAM Optimization MoE

NEWS↑ trendingReddit r/LocalLLaMA·07/05/2026

feat: Add Mimo v2.5 model support by AesSedai · Pull Request #22493 · ggml-org/llama.cpp

Le contenu annonce l'ajout du support du modèle MiMo v2.5 dans llama.cpp et décrit son architecture. MiMo v2.5 est un modèle Sparse MoE avec 310 milliards de paramètres totaux et 15 milliards activés, prenant en charge les modalités texte, image, vidéo et audio avec une longueur de contexte impressionnante.

multimodal AI Model Architecture llama.cpp MoE

feat: Add Mimo v2.5 model support by AesSedai · Pull Request #22493 · ggml-org/llama.cpp

RESEARCH↑ trendingReddit r/LocalLLaMA·18/04/2026

Accidentally discovered you can teach frozen MoE models new knowledge by just steering their expert routing — no training needed

Une nouvelle méthode permet d'enseigner de nouvelles connaissances à des modèles MoE "gelés" en orientant leur routage d'experts, sans entraînement traditionnel. Nommée Intelligence Cognitive Adaptative (ACI), cette technique a démontré la correction d'erreurs factuelles dans Gemma 4 à l'aide d'un petit fichier de configuration.

model steering LLMs Gemma 4 Knowledge Injection

ARTICLE↑ trendingReddit r/LocalLLaMA·18/04/2026

LM Studio CPU thread pool size vs. tk/s with some MoE layers offloaded to CPU

Ce contenu analyse la relation entre la taille du pool de threads du CPU dans LM Studio et la vitesse de génération de jetons (tk/s). Il se concentre spécifiquement sur les scénarios où certaines couches du modèle Mixture of Experts (MoE) sont déchargées sur le CPU pour optimiser les performances.

LLM optimization CPU performance MoE LM Studio

LM Studio CPU thread pool size vs. tk/s with some MoE layers offloaded to CPU

ARTICLE↑ trendingReddit r/LocalLLaMA·18/04/2026

RTX 5070 Ti + 9800X3D running Qwen3.6-35B-A3B at 79 t/s with 128K context, the --n-cpu-moe flag is the most important part.

Le contenu détaille comment optimiser Qwen3.6-35B-A3B sur du matériel grand public (RTX 5070 Ti, Ryzen 9800X3D), atteignant 79 t/s avec 128K de contexte. La découverte majeure est l'utilisation correcte du flag `--n-cpu-moe N` dans llama.cpp, qui surpasse significativement le `--cpu-moe` commun en utilisant plus de VRAM GPU pour les experts MoE.

llama.cpp AI optimization MoE LLM performance

NEWS↑ trendingReddit r/LocalLLaMA·09/04/2026

Marco-Mini (17.3B, 0.86B active) and Marco-Nano (8B, 0.6B active) by Alibaba

A Alibaba lançou recentemente os modelos Marco-Mini e Marco-Nano, variantes instrucionadas de modelos de linguagem multilingues altamente esparsos baseados em Mixture-of-Experts (MoE). O Marco-Mini, com apenas 0.86B de 17.3B parâmetros ativos, destaca-se por superar outros modelos de até 12B de parâmetros ativados em benchmarks de desempenho.

AI models LLMs Alibaba Sparse Models

RESEARCH↑ trendingReddit r/LocalLLaMA·18/04/2026

Qwen 3.6 35B A3B Q4_K_M quant evaluation

Ce contenu évalue les performances du modèle MoE quantifié Qwen 3.6 35B A3B Q4_K_M sur CPU, en utilisant des benchmarks comme HumanEval, HellaSwag et BFCL. Il a atteint 22 jetons/sec, montrant de solides performances en raisonnement de bon sens (74%) et des résultats solides pour un modèle MoE actif de 3B.

AI model evaluation Benchmarking quantization MoE

Qwen 3.6 35B A3B Q4_K_M quant evaluation

RESEARCH↑ trendingReddit r/LocalLLaMA·22/04/2026

Dense vs. MoE gap is shrinking fast with the 3.6-27B release

Les modèles d'IA denses surpassent actuellement les MoE dans l'ensemble, mais les MoE rattrapent rapidement leur retard, en particulier dans les benchmarks de codage. Pour les utilisateurs disposant de 24 Go de VRAM et nécessitant de grandes fenêtres de contexte, le MoE devient une option plus attrayante.

AI models LLMs Benchmarks MoE

Dense vs. MoE gap is shrinking fast with the 3.6-27B release

ARTICLE↑ trendingReddit r/LocalLLaMA·11/04/2026

If Dense Models are better for Coding, why are Qwen-Coders MoE?

L'auteur s'interroge sur la décision de Qwen d'utiliser l'architecture Mixture-of-Experts (MoE) pour ses modèles de codage, plutôt que des modèles denses plus précis. Il spécule que ce choix pourrait être lié à la vitesse d'inférence et déplore l'absence d'un successeur 14B.

Model Architecture coding AI MoE AI

RESEARCHarXiv CS.CL·07/04/2026

Unveiling Language Routing Isolation in Multilingual MoE Models for Interpretable Subnetwork Adaptation

Ce contenu explore l'isolation du routage linguistique dans les modèles MoE multilingues, visant une adaptation de sous-réseau plus interprétable.

Multilingual Models Subnetwork Adaptation MoE AI

ARTICLEDEV.to AI·16/04/2026

How to run Qwen3.6-35B-A3B locally — the coding MoE that beats models 10x its active size

Qwen a lancé le Qwen3.6-35B-A3B, un nouveau modèle Mixture-of-Experts offrant une qualité de grand modèle à la vitesse d'un petit modèle, avec des capacités de vision. Il surpasse des modèles 10 fois plus grands sur des benchmarks de codage et excelle en raisonnement scientifique et en génération de frontend.

multimodal AI AI Benchmarks coding AI MoE

RESEARCHDEV.to AI·23/04/2026

qwen3.6-27b scores 77.2% on SWE-bench. the dense model is winning against MoE.

Le modèle dense Qwen3.6-27B a surpassé le modèle MoE Qwen3.6-35B-A3B sur SWE-bench, obtenant 77.2% contre 73.4%. Cela suggère que les modèles denses pourraient s'avérer plus efficaces pour les tâches d'ingénierie logicielle réelles.

AI models Model Architecture Benchmarks MoE

RESEARCHarXiv CS.LG·09/04/2026

TalkLoRA: Communication-Aware Mixture of Low-Rank Adaptation for Large Language Models

TalkLoRA propõe um framework MoELoRA que aborda a instabilidade de roteamento e a dominância de especialistas em métodos existentes, permitindo a comunicação entre especialistas antes do roteamento. Isso é feito através de um Módulo de Conversação leve, que facilita a troca de informações, gerando um sinal de roteamento mais robusto para Large Language Models (LLMs).

LLMs MoE Communication Fine-tuning

RESEARCHarXiv CS.LG·il y a 20j

HELLoRA: Hot Experts Layer-Level Low-Rank Adaptation for Mixture-of-Experts Models

HELLoRA propose une nouvelle méthode pour l'ajustement fin des modèles Mixture-of-Experts (MoE), en appliquant des modules Low-Rank Adaptation (LoRA) uniquement aux experts les plus fréquemment activés à chaque couche. Cette technique réduit considérablement les paramètres entraînables et améliore les performances, attribuant son succès à une régularisation structurée qui préserve la spécialisation pré-entraînée des experts.

LLMs MoE AI Fine-tuning

ARTICLEDEV.to AI·il y a 18j

MiniMax M2.7 API Pricing 2026: Free Tier, Setup, and How It Stacks Against DeepSeek and Kimi

MiniMax M2.7 est un modèle d'IA compétitif de 230 milliards de paramètres et Mixture-of-Experts, lancé en mars 2026. Conçu pour les flux de travail « agentic », il offre des capacités proches de celles des concurrents propriétaires. Le modèle maintient des coûts opérationnels nettement inférieurs pour les organisations qui mettent en œuvre des systèmes basés sur des agents.

AI models MoE Agentic AI MiniMax M2.7

NEWSQwen Blog·28/04/2025

Qwen3: Think Deeper, Act Faster

Qwen3, a nova família de modelos de linguagem, foi lançada, com o modelo principal Qwen3-235B-A22B alcançando resultados competitivos em benchmarks. Modelos menores como Qwen3-30B-A3B e Qwen3-4B também demonstraram desempenho superior em comparação com outros modelos.

AI models Benchmarks MoE Qwen3

ARTICLEQwen Blog·28/01/2025

Qwen2.5-Max: Exploring the Intelligence of Large-scale MoE Model

O conteúdo explora a importância da escalabilidade contínua de dados e modelos (densos ou Mixture-of-Expert) para aprimorar a inteligência artificial, destacando a experiência limitada da comunidade na área. Menciona que detalhes críticos de escalabilidade foram recentemente divulgados pelo DeepSeek V3 e que o Qwen2 está em desenvolvimento.

IA modelos de linguagem MoE

ARTICLEQwen Blog·20/01/2025

Global-batch load balance almost free lunch to improve your MoE LLM training

O conteúdo introduz a arquitetura Mixture-of-Experts (MoE) como uma técnica popular para escalar parâmetros de modelos. Ele descreve a camada MoE consistindo de um roteador e um grupo de experts, onde apenas um subconjunto é ativado para processar uma entrada.

deep learning Training MoE Neural Architecture