← heapsort-ai

MoE

21 items

ARTICLE↑ trendingReddit r/LocalLLaMA·15/04/2026

Hot Experts in your VRAM! Dynamic expert cache in llama.cpp for 27% faster CPU +GPU token generation with Qwen3.5-122B-A10B compared to layer-based single-GPU partial offload

Cet article détaille une nouvelle stratégie de cache d'experts dynamique dans llama.cpp pour accélérer la génération de jetons sur de grands modèles MoE comme Qwen3.5-122B-A10B. L'approche charge les experts fréquemment utilisés dans la VRAM, ce qui se traduit par une génération de jetons jusqu'à 26,8% plus rapide par rapport au déchargement partiel basé sur les couches.

43
RESEARCH↑ trendingReddit r/LocalLLaMA·18/04/2026

Accidentally discovered you can teach frozen MoE models new knowledge by just steering their expert routing — no training needed

Une nouvelle méthode permet d'enseigner de nouvelles connaissances à des modèles MoE "gelés" en orientant leur routage d'experts, sans entraînement traditionnel. Nommée Intelligence Cognitive Adaptative (ACI), cette technique a démontré la correction d'erreurs factuelles dans Gemma 4 à l'aide d'un petit fichier de configuration.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·18/04/2026

RTX 5070 Ti + 9800X3D running Qwen3.6-35B-A3B at 79 t/s with 128K context, the --n-cpu-moe flag is the most important part.

Le contenu détaille comment optimiser Qwen3.6-35B-A3B sur du matériel grand public (RTX 5070 Ti, Ryzen 9800X3D), atteignant 79 t/s avec 128K de contexte. La découverte majeure est l'utilisation correcte du flag `--n-cpu-moe N` dans llama.cpp, qui surpasse significativement le `--cpu-moe` commun en utilisant plus de VRAM GPU pour les experts MoE.

42
NEWS↑ trendingReddit r/LocalLLaMA·09/04/2026

Marco-Mini (17.3B, 0.86B active) and Marco-Nano (8B, 0.6B active) by Alibaba

A Alibaba lançou recentemente os modelos Marco-Mini e Marco-Nano, variantes instrucionadas de modelos de linguagem multilingues altamente esparsos baseados em Mixture-of-Experts (MoE). O Marco-Mini, com apenas 0.86B de 17.3B parâmetros ativos, destaca-se por superar outros modelos de até 12B de parâmetros ativados em benchmarks de desempenho.

42
RESEARCH↑ trendingReddit r/LocalLLaMA·18/04/2026

Qwen 3.6 35B A3B Q4_K_M quant evaluation

Ce contenu évalue les performances du modèle MoE quantifié Qwen 3.6 35B A3B Q4_K_M sur CPU, en utilisant des benchmarks comme HumanEval, HellaSwag et BFCL. Il a atteint 22 jetons/sec, montrant de solides performances en raisonnement de bon sens (74%) et des résultats solides pour un modèle MoE actif de 3B.

Qwen 3.6 35B A3B Q4_K_M quant evaluation
42
RESEARCH↑ trendingReddit r/LocalLLaMA·22/04/2026

Dense vs. MoE gap is shrinking fast with the 3.6-27B release

Les modèles d'IA denses surpassent actuellement les MoE dans l'ensemble, mais les MoE rattrapent rapidement leur retard, en particulier dans les benchmarks de codage. Pour les utilisateurs disposant de 24 Go de VRAM et nécessitant de grandes fenêtres de contexte, le MoE devient une option plus attrayante.

Dense vs. MoE gap is shrinking fast with the 3.6-27B release
41
RESEARCHarXiv CS.LG·09/04/2026

TalkLoRA: Communication-Aware Mixture of Low-Rank Adaptation for Large Language Models

TalkLoRA propõe um framework MoELoRA que aborda a instabilidade de roteamento e a dominância de especialistas em métodos existentes, permitindo a comunicação entre especialistas antes do roteamento. Isso é feito através de um Módulo de Conversação leve, que facilita a troca de informações, gerando um sinal de roteamento mais robusto para Large Language Models (LLMs).

27
RESEARCHarXiv CS.LG·il y a 20j

HELLoRA: Hot Experts Layer-Level Low-Rank Adaptation for Mixture-of-Experts Models

HELLoRA propose une nouvelle méthode pour l'ajustement fin des modèles Mixture-of-Experts (MoE), en appliquant des modules Low-Rank Adaptation (LoRA) uniquement aux experts les plus fréquemment activés à chaque couche. Cette technique réduit considérablement les paramètres entraînables et améliore les performances, attribuant son succès à une régularisation structurée qui préserve la spécialisation pré-entraînée des experts.

27
ARTICLEDEV.to AI·il y a 18j

MiniMax M2.7 API Pricing 2026: Free Tier, Setup, and How It Stacks Against DeepSeek and Kimi

MiniMax M2.7 est un modèle d'IA compétitif de 230 milliards de paramètres et Mixture-of-Experts, lancé en mars 2026. Conçu pour les flux de travail « agentic », il offre des capacités proches de celles des concurrents propriétaires. Le modèle maintient des coûts opérationnels nettement inférieurs pour les organisations qui mettent en œuvre des systèmes basés sur des agents.

27
NEWSQwen Blog·28/04/2025

Qwen3: Think Deeper, Act Faster

Qwen3, a nova família de modelos de linguagem, foi lançada, com o modelo principal Qwen3-235B-A22B alcançando resultados competitivos em benchmarks. Modelos menores como Qwen3-30B-A3B e Qwen3-4B também demonstraram desempenho superior em comparação com outros modelos.

23
ARTICLEQwen Blog·28/01/2025

Qwen2.5-Max: Exploring the Intelligence of Large-scale MoE Model

O conteúdo explora a importância da escalabilidade contínua de dados e modelos (densos ou Mixture-of-Expert) para aprimorar a inteligência artificial, destacando a experiência limitada da comunidade na área. Menciona que detalhes críticos de escalabilidade foram recentemente divulgados pelo DeepSeek V3 e que o Qwen2 está em desenvolvimento.

23