← heapsort-ai

MoE

21 items

ARTICLE↑ trendingReddit r/LocalLLaMA·4/15/2026

Hot Experts in your VRAM! Dynamic expert cache in llama.cpp for 27% faster CPU +GPU token generation with Qwen3.5-122B-A10B compared to layer-based single-GPU partial offload

Dieser Artikel beschreibt eine neuartige dynamische Expertencaching-Strategie, die in llama.cpp implementiert wurde, um die Token-Generierung für große MoE-Modelle wie Qwen3.5-122B-A10B zu beschleunigen. Dieser Ansatz lädt häufig genutzte Experten in den VRAM, was zu einer bis zu 26,8 % schnelleren Token-Generierung im Vergleich zur schichtbasierten partiellen Auslagerung führt.

43
RESEARCH↑ trendingReddit r/LocalLLaMA·4/18/2026

Accidentally discovered you can teach frozen MoE models new knowledge by just steering their expert routing — no training needed

Eine neuartige Methode ermöglicht es, eingefrorenen MoE-Modellen neues Wissen durch Steuerung ihres Experten-Routings beizubringen und dabei traditionelles Training zu umgehen. Diese Technik, genannt Adaptive Kognitive Intelligenz (ACI), demonstrierte die Korrektur von Sachfehlern in Gemma 4 mithilfe nur einer kleinen Konfigurationsdatei.

42
NEWS↑ trendingReddit r/LocalLLaMA·4/9/2026

Marco-Mini (17.3B, 0.86B active) and Marco-Nano (8B, 0.6B active) by Alibaba

A Alibaba lançou recentemente os modelos Marco-Mini e Marco-Nano, variantes instrucionadas de modelos de linguagem multilingues altamente esparsos baseados em Mixture-of-Experts (MoE). O Marco-Mini, com apenas 0.86B de 17.3B parâmetros ativos, destaca-se por superar outros modelos de até 12B de parâmetros ativados em benchmarks de desempenho.

42
RESEARCH↑ trendingReddit r/LocalLLaMA·4/18/2026

Qwen 3.6 35B A3B Q4_K_M quant evaluation

Dieser Inhalt bewertet die Leistung des quantisierten MoE-Modells Qwen 3.6 35B A3B Q4_K_M auf der CPU, unter Verwendung von Benchmarks wie HumanEval, HellaSwag und BFCL. Es erreichte 22 Tokens/Sekunde und zeigte eine starke Leistung bei Schlussfolgerungen des gesunden Menschenverstandes (74%) sowie solide Ergebnisse für ein aktives 3B MoE-Modell.

Qwen 3.6 35B A3B Q4_K_M quant evaluation
42
ARTICLEDEV.to AI·4/16/2026

How to run Qwen3.6-35B-A3B locally — the coding MoE that beats models 10x its active size

Qwen hat Qwen3.6-35B-A3B veröffentlicht, ein neues Mixture-of-Experts-Modell, das die Qualität großer Modelle mit der Geschwindigkeit kleiner Modelle und visuellen Fähigkeiten bietet. Es übertrifft Modelle, die zehnmal so groß sind, bei Kodierungs-Benchmarks wie SWE-bench und Terminal-Bench und ist auch hervorragend im wissenschaftlichen Denken und bei der Frontend-Generierung.

28
RESEARCHarXiv CS.LG·4/9/2026

TalkLoRA: Communication-Aware Mixture of Low-Rank Adaptation for Large Language Models

TalkLoRA propõe um framework MoELoRA que aborda a instabilidade de roteamento e a dominância de especialistas em métodos existentes, permitindo a comunicação entre especialistas antes do roteamento. Isso é feito através de um Módulo de Conversação leve, que facilita a troca de informações, gerando um sinal de roteamento mais robusto para Large Language Models (LLMs).

27
RESEARCHarXiv CS.LG·vor 20T

HELLoRA: Hot Experts Layer-Level Low-Rank Adaptation for Mixture-of-Experts Models

HELLoRA schlägt eine neue Methode zur Feinabstimmung von Mixture-of-Experts (MoE)-Modellen vor, indem Low-Rank Adaptation (LoRA)-Module nur an den am häufigsten aktivierten Experten jeder Schicht angebracht werden. Diese Technik reduziert die trainierbaren Parameter erheblich und verbessert die Leistung, was auf eine strukturierte Regularisierung zurückzuführen ist, die die vortrainierte Expertenspezialisierung bewahrt.

27
ARTICLEDEV.to AI·vor 18T

MiniMax M2.7 API Pricing 2026: Free Tier, Setup, and How It Stacks Against DeepSeek and Kimi

MiniMax M2.7 ist ein wettbewerbsfähiges 230-Milliarden-Parameter-KI-Modell im Mixture-of-Experts-Format, das im März 2026 veröffentlicht wurde. Es wurde für „agentische“ Workflows entwickelt und bietet Fähigkeiten, die proprietären Konkurrenten nahekommen. Das Modell ermöglicht deutlich niedrigere Betriebskosten für Organisationen, die agentenbasierte Systeme implementieren.

27
NEWSQwen Blog·4/28/2025

Qwen3: Think Deeper, Act Faster

Qwen3, a nova família de modelos de linguagem, foi lançada, com o modelo principal Qwen3-235B-A22B alcançando resultados competitivos em benchmarks. Modelos menores como Qwen3-30B-A3B e Qwen3-4B também demonstraram desempenho superior em comparação com outros modelos.

23
ARTICLEQwen Blog·1/28/2025

Qwen2.5-Max: Exploring the Intelligence of Large-scale MoE Model

O conteúdo explora a importância da escalabilidade contínua de dados e modelos (densos ou Mixture-of-Expert) para aprimorar a inteligência artificial, destacando a experiência limitada da comunidade na área. Menciona que detalhes críticos de escalabilidade foram recentemente divulgados pelo DeepSeek V3 e que o Qwen2 está em desenvolvimento.

23