MoE

21 items

ARTICLE↑ trendingReddit r/LocalLLaMA·4/22/2026

Forgive my ignorance but how is a 27B model better than 397B?

Ein Nutzer drückt seine Verwirrung darüber aus, wie ein 27B dichtes Modell besser sein kann als ein 397B MoE-Modell, insbesondere in Bezug auf Qwen, und hinterfragt den Nutzen der zusätzlichen Experten.

AI models Model Architecture MoE Qwen

Forgive my ignorance but how is a 27B model better than 397B?

RESEARCH↑ trendingReddit r/LocalLLaMA·4/9/2026

Used ray tracing cores on my RTX 5070 Ti for LLM routing — 218x speedup, runs entirely on 1 consumer GPU

Um método inovador usa os RT Cores de GPUs para roteamento de especialistas em modelos MoE, resultando em aceleração de 218x e 731x menos VRAM para essa tarefa. A pesquisa também revela que os especialistas MoE se especializam por tipo sintático, e não por tópico como se acreditava.

Otimização de Hardware IA MoE Ray Tracing Cores

ARTICLE↑ trendingReddit r/LocalLLaMA·4/15/2026

Hot Experts in your VRAM! Dynamic expert cache in llama.cpp for 27% faster CPU +GPU token generation with Qwen3.5-122B-A10B compared to layer-based single-GPU partial offload

Dieser Artikel beschreibt eine neuartige dynamische Expertencaching-Strategie, die in llama.cpp implementiert wurde, um die Token-Generierung für große MoE-Modelle wie Qwen3.5-122B-A10B zu beschleunigen. Dieser Ansatz lädt häufig genutzte Experten in den VRAM, was zu einer bis zu 26,8 % schnelleren Token-Generierung im Vergleich zur schichtbasierten partiellen Auslagerung führt.

Token Generation llama.cpp VRAM Optimization MoE

NEWS↑ trendingReddit r/LocalLLaMA·5/7/2026

feat: Add Mimo v2.5 model support by AesSedai · Pull Request #22493 · ggml-org/llama.cpp

Der Inhalt kündigt die Unterstützung des MiMo v2.5-Modells in llama.cpp an und beschreibt dessen Architektur. MiMo v2.5 ist ein Sparse MoE-Modell mit insgesamt 310 Milliarden und 15 Milliarden aktivierten Parametern, das Text-, Bild-, Video- und Audio-Modalitäten mit einer beeindruckenden Kontextlänge unterstützt.

multimodal AI Model Architecture llama.cpp MoE

feat: Add Mimo v2.5 model support by AesSedai · Pull Request #22493 · ggml-org/llama.cpp

RESEARCH↑ trendingReddit r/LocalLLaMA·4/18/2026

Accidentally discovered you can teach frozen MoE models new knowledge by just steering their expert routing — no training needed

Eine neuartige Methode ermöglicht es, eingefrorenen MoE-Modellen neues Wissen durch Steuerung ihres Experten-Routings beizubringen und dabei traditionelles Training zu umgehen. Diese Technik, genannt Adaptive Kognitive Intelligenz (ACI), demonstrierte die Korrektur von Sachfehlern in Gemma 4 mithilfe nur einer kleinen Konfigurationsdatei.

model steering LLMs Gemma 4 Knowledge Injection

ARTICLE↑ trendingReddit r/LocalLLaMA·4/18/2026

LM Studio CPU thread pool size vs. tk/s with some MoE layers offloaded to CPU

Dieser Inhalt analysiert die Beziehung zwischen der CPU-Thread-Pool-Größe in LM Studio und der Token-Generierungsgeschwindigkeit (tk/s). Er konzentriert sich dabei speziell auf Szenarien, in denen einige Mixture of Experts (MoE)-Schichten auf die CPU ausgelagert werden, um die Leistung zu optimieren.

LLM optimization CPU performance MoE LM Studio

LM Studio CPU thread pool size vs. tk/s with some MoE layers offloaded to CPU

ARTICLE↑ trendingReddit r/LocalLLaMA·4/18/2026

RTX 5070 Ti + 9800X3D running Qwen3.6-35B-A3B at 79 t/s with 128K context, the --n-cpu-moe flag is the most important part.

Die Optimierung von Qwen3.6-35B-A3B auf Consumer-Hardware (RTX 5070 Ti, Ryzen 9800X3D) erreicht 79 t/s mit 128K Kontext. Der Schlüssel ist die korrekte Verwendung von `--n-cpu-moe N` in llama.cpp, was `--cpu-moe` übertrifft, indem es mehr GPU-VRAM für MoE-Experten nutzt.

llama.cpp AI optimization MoE LLM performance

NEWS↑ trendingReddit r/LocalLLaMA·4/9/2026

Marco-Mini (17.3B, 0.86B active) and Marco-Nano (8B, 0.6B active) by Alibaba

A Alibaba lançou recentemente os modelos Marco-Mini e Marco-Nano, variantes instrucionadas de modelos de linguagem multilingues altamente esparsos baseados em Mixture-of-Experts (MoE). O Marco-Mini, com apenas 0.86B de 17.3B parâmetros ativos, destaca-se por superar outros modelos de até 12B de parâmetros ativados em benchmarks de desempenho.

AI models LLMs Alibaba Sparse Models

RESEARCH↑ trendingReddit r/LocalLLaMA·4/18/2026

Qwen 3.6 35B A3B Q4_K_M quant evaluation

Dieser Inhalt bewertet die Leistung des quantisierten MoE-Modells Qwen 3.6 35B A3B Q4_K_M auf der CPU, unter Verwendung von Benchmarks wie HumanEval, HellaSwag und BFCL. Es erreichte 22 Tokens/Sekunde und zeigte eine starke Leistung bei Schlussfolgerungen des gesunden Menschenverstandes (74%) sowie solide Ergebnisse für ein aktives 3B MoE-Modell.

AI model evaluation Benchmarking quantization MoE

Qwen 3.6 35B A3B Q4_K_M quant evaluation

RESEARCH↑ trendingReddit r/LocalLLaMA·4/22/2026

Dense vs. MoE gap is shrinking fast with the 3.6-27B release

Dichte KI-Modelle übertreffen MoE derzeit insgesamt, aber MoE holt schnell auf, insbesondere bei Codierungs-Benchmarks. Für Benutzer mit 24 GB VRAM und dem Bedarf an großen Kontextfenstern wird MoE zu einer immer attraktiveren Option.

AI models LLMs Benchmarks MoE

Dense vs. MoE gap is shrinking fast with the 3.6-27B release

ARTICLE↑ trendingReddit r/LocalLLaMA·4/11/2026

If Dense Models are better for Coding, why are Qwen-Coders MoE?

Der Autor hinterfragt Qwens Entscheidung, die Mixture-of-Experts (MoE)-Architektur anstelle präziserer dichter Modelle für seine Codierungsmodelle zu nutzen. Er spekuliert, die Wahl könnte mit der Inferenzgeschwindigkeit zusammenhängen, und bedauert das Fehlen eines 14B-Nachfolgers.

Model Architecture coding AI MoE AI

RESEARCHarXiv CS.CL·4/7/2026

Unveiling Language Routing Isolation in Multilingual MoE Models for Interpretable Subnetwork Adaptation

Dieser Inhalt untersucht die Sprachrouting-Isolation in mehrsprachigen MoE-Modellen, um eine besser interpretierbare Subnetzwerkanpassung zu ermöglichen.

Multilingual Models Subnetwork Adaptation MoE AI

ARTICLEDEV.to AI·4/16/2026

How to run Qwen3.6-35B-A3B locally — the coding MoE that beats models 10x its active size

Qwen hat Qwen3.6-35B-A3B veröffentlicht, ein neues Mixture-of-Experts-Modell, das die Qualität großer Modelle mit der Geschwindigkeit kleiner Modelle und visuellen Fähigkeiten bietet. Es übertrifft Modelle, die zehnmal so groß sind, bei Kodierungs-Benchmarks wie SWE-bench und Terminal-Bench und ist auch hervorragend im wissenschaftlichen Denken und bei der Frontend-Generierung.

multimodal AI AI Benchmarks coding AI MoE

RESEARCHDEV.to AI·4/23/2026

qwen3.6-27b scores 77.2% on SWE-bench. the dense model is winning against MoE.

Das dichte Modell Qwen3.6-27B übertraf das Qwen3.6-35B-A3B MoE-Modell auf SWE-bench mit 77.2% gegenüber 73.4%. Dies deutet darauf hin, dass dichte Modelle für reale Softwareentwicklungsaufgaben effektiver sein könnten.

AI models Model Architecture Benchmarks MoE

RESEARCHarXiv CS.LG·4/9/2026

TalkLoRA: Communication-Aware Mixture of Low-Rank Adaptation for Large Language Models

TalkLoRA propõe um framework MoELoRA que aborda a instabilidade de roteamento e a dominância de especialistas em métodos existentes, permitindo a comunicação entre especialistas antes do roteamento. Isso é feito através de um Módulo de Conversação leve, que facilita a troca de informações, gerando um sinal de roteamento mais robusto para Large Language Models (LLMs).

LLMs MoE Communication Fine-tuning

RESEARCHarXiv CS.LG·vor 20T

HELLoRA: Hot Experts Layer-Level Low-Rank Adaptation for Mixture-of-Experts Models

HELLoRA schlägt eine neue Methode zur Feinabstimmung von Mixture-of-Experts (MoE)-Modellen vor, indem Low-Rank Adaptation (LoRA)-Module nur an den am häufigsten aktivierten Experten jeder Schicht angebracht werden. Diese Technik reduziert die trainierbaren Parameter erheblich und verbessert die Leistung, was auf eine strukturierte Regularisierung zurückzuführen ist, die die vortrainierte Expertenspezialisierung bewahrt.

LLMs MoE AI Fine-tuning

ARTICLEDEV.to AI·vor 18T

MiniMax M2.7 API Pricing 2026: Free Tier, Setup, and How It Stacks Against DeepSeek and Kimi

MiniMax M2.7 ist ein wettbewerbsfähiges 230-Milliarden-Parameter-KI-Modell im Mixture-of-Experts-Format, das im März 2026 veröffentlicht wurde. Es wurde für „agentische“ Workflows entwickelt und bietet Fähigkeiten, die proprietären Konkurrenten nahekommen. Das Modell ermöglicht deutlich niedrigere Betriebskosten für Organisationen, die agentenbasierte Systeme implementieren.

AI models MoE Agentic AI MiniMax M2.7

NEWSQwen Blog·4/28/2025

Qwen3: Think Deeper, Act Faster

Qwen3, a nova família de modelos de linguagem, foi lançada, com o modelo principal Qwen3-235B-A22B alcançando resultados competitivos em benchmarks. Modelos menores como Qwen3-30B-A3B e Qwen3-4B também demonstraram desempenho superior em comparação com outros modelos.

AI models Benchmarks MoE Qwen3

ARTICLEQwen Blog·1/28/2025

Qwen2.5-Max: Exploring the Intelligence of Large-scale MoE Model

O conteúdo explora a importância da escalabilidade contínua de dados e modelos (densos ou Mixture-of-Expert) para aprimorar a inteligência artificial, destacando a experiência limitada da comunidade na área. Menciona que detalhes críticos de escalabilidade foram recentemente divulgados pelo DeepSeek V3 e que o Qwen2 está em desenvolvimento.

IA modelos de linguagem MoE

ARTICLEQwen Blog·1/20/2025

Global-batch load balance almost free lunch to improve your MoE LLM training

O conteúdo introduz a arquitetura Mixture-of-Experts (MoE) como uma técnica popular para escalar parâmetros de modelos. Ele descreve a camada MoE consistindo de um roteador e um grupo de experts, onde apenas um subconjunto é ativado para processar uma entrada.

deep learning Training MoE Neural Architecture