MoE

21 items

ARTICLE↑ trendingReddit r/LocalLLaMA·22/4/2026

Forgive my ignorance but how is a 27B model better than 397B?

Un usuario expresa confusión sobre cómo un modelo denso de 27B puede ser superior a un modelo MoE de 397B, mencionando Qwen, y cuestiona la utilidad de los expertos adicionales.

AI models Model Architecture MoE Qwen

Forgive my ignorance but how is a 27B model better than 397B?

RESEARCH↑ trendingReddit r/LocalLLaMA·9/4/2026

Used ray tracing cores on my RTX 5070 Ti for LLM routing — 218x speedup, runs entirely on 1 consumer GPU

Um método inovador usa os RT Cores de GPUs para roteamento de especialistas em modelos MoE, resultando em aceleração de 218x e 731x menos VRAM para essa tarefa. A pesquisa também revela que os especialistas MoE se especializam por tipo sintático, e não por tópico como se acreditava.

Otimização de Hardware IA MoE Ray Tracing Cores

ARTICLE↑ trendingReddit r/LocalLLaMA·15/4/2026

Hot Experts in your VRAM! Dynamic expert cache in llama.cpp for 27% faster CPU +GPU token generation with Qwen3.5-122B-A10B compared to layer-based single-GPU partial offload

Este artículo detalla una nueva estrategia de caché de expertos dinámicos en llama.cpp para acelerar la generación de tokens en grandes modelos MoE como Qwen3.5-122B-A10B. El enfoque carga los expertos más utilizados en la VRAM, lo que resulta en una generación de tokens hasta un 26,8% más rápida en comparación con la descarga parcial basada en capas.

Token Generation llama.cpp VRAM Optimization MoE

NEWS↑ trendingReddit r/LocalLLaMA·7/5/2026

feat: Add Mimo v2.5 model support by AesSedai · Pull Request #22493 · ggml-org/llama.cpp

El contenido anuncia la adición de soporte para el modelo MiMo v2.5 en llama.cpp y describe su arquitectura. MiMo v2.5 es un modelo Sparse MoE con 310B de parámetros totales y 15B activados, que soporta modalidades de texto, imagen, video y audio con una impresionante longitud de contexto.

multimodal AI Model Architecture llama.cpp MoE

feat: Add Mimo v2.5 model support by AesSedai · Pull Request #22493 · ggml-org/llama.cpp

RESEARCH↑ trendingReddit r/LocalLLaMA·18/4/2026

Accidentally discovered you can teach frozen MoE models new knowledge by just steering their expert routing — no training needed

Un nuevo método permite enseñar nuevos conocimientos a modelos MoE "congelados" dirigiendo su enrutamiento de expertos, sin necesidad de entrenamiento tradicional. Denominada Inteligencia Cognitiva Adaptativa (ACI), esta técnica demostró corregir errores fácticos en Gemma 4 usando solo un pequeño archivo de configuración.

model steering LLMs Gemma 4 Knowledge Injection

ARTICLE↑ trendingReddit r/LocalLLaMA·18/4/2026

LM Studio CPU thread pool size vs. tk/s with some MoE layers offloaded to CPU

Este contenido analiza la relación entre el tamaño del grupo de hilos de la CPU en LM Studio y la velocidad de generación de tokens (tk/s). Se enfoca específicamente en escenarios donde algunas capas del modelo Mixture of Experts (MoE) son descargadas a la CPU para optimizar el rendimiento.

LLM optimization CPU performance MoE LM Studio

LM Studio CPU thread pool size vs. tk/s with some MoE layers offloaded to CPU

ARTICLE↑ trendingReddit r/LocalLLaMA·18/4/2026

RTX 5070 Ti + 9800X3D running Qwen3.6-35B-A3B at 79 t/s with 128K context, the --n-cpu-moe flag is the most important part.

El contenido detalla cómo optimizar Qwen3.6-35B-A3B en hardware de consumo (RTX 5070 Ti, Ryzen 9800X3D), logrando 79 t/s con contexto de 128K. El hallazgo clave es el uso correcto de la bandera `--n-cpu-moe N` en llama.cpp, que supera significativamente a la común `--cpu-moe` al usar más VRAM de la GPU para los expertos MoE.

llama.cpp AI optimization MoE LLM performance

NEWS↑ trendingReddit r/LocalLLaMA·9/4/2026

Marco-Mini (17.3B, 0.86B active) and Marco-Nano (8B, 0.6B active) by Alibaba

A Alibaba lançou recentemente os modelos Marco-Mini e Marco-Nano, variantes instrucionadas de modelos de linguagem multilingues altamente esparsos baseados em Mixture-of-Experts (MoE). O Marco-Mini, com apenas 0.86B de 17.3B parâmetros ativos, destaca-se por superar outros modelos de até 12B de parâmetros ativados em benchmarks de desempenho.

AI models LLMs Alibaba Sparse Models

RESEARCH↑ trendingReddit r/LocalLLaMA·18/4/2026

Qwen 3.6 35B A3B Q4_K_M quant evaluation

Este contenido evalúa el rendimiento del modelo MoE cuantificado Qwen 3.6 35B A3B Q4_K_M en CPU, utilizando benchmarks como HumanEval, HellaSwag y BFCL. Alcanzó 22 tokens/seg, mostrando un fuerte rendimiento en razonamiento de sentido común (74%) y resultados sólidos para un modelo MoE activo de 3B.

AI model evaluation Benchmarking quantization MoE

Qwen 3.6 35B A3B Q4_K_M quant evaluation

RESEARCH↑ trendingReddit r/LocalLLaMA·22/4/2026

Dense vs. MoE gap is shrinking fast with the 3.6-27B release

Los modelos de IA densos superan actualmente a los MoE en general, pero los MoE están alcanzando rápidamente, particularmente en los benchmarks de codificación. Para usuarios con 24GB de VRAM y necesidad de grandes ventanas de contexto, el MoE se está convirtiendo en una opción más atractiva.

AI models LLMs Benchmarks MoE

Dense vs. MoE gap is shrinking fast with the 3.6-27B release

ARTICLE↑ trendingReddit r/LocalLLaMA·11/4/2026

If Dense Models are better for Coding, why are Qwen-Coders MoE?

El autor cuestiona la decisión de Qwen de usar la arquitectura Mixture-of-Experts (MoE) para sus modelos de codificación, en lugar de modelos densos más precisos. Especula que la elección podría estar ligada a la velocidad de inferencia y lamenta la ausencia de un sucesor de 14B.

Model Architecture coding AI MoE AI

RESEARCHarXiv CS.CL·7/4/2026

Unveiling Language Routing Isolation in Multilingual MoE Models for Interpretable Subnetwork Adaptation

Este contenido explora el aislamiento del enrutamiento de lenguaje en modelos MoE multilingües, buscando una adaptación de subred más interpretable.

Multilingual Models Subnetwork Adaptation MoE AI

ARTICLEDEV.to AI·16/4/2026

How to run Qwen3.6-35B-A3B locally — the coding MoE that beats models 10x its active size

Qwen ha lanzado Qwen3.6-35B-A3B, un nuevo modelo Mixture-of-Experts que ofrece calidad de modelo grande a velocidad de modelo pequeño con capacidades de visión. Supera a modelos 10 veces su tamaño activo en benchmarks de codificación y destaca en razonamiento científico y generación de frontend.

multimodal AI AI Benchmarks coding AI MoE

RESEARCHDEV.to AI·23/4/2026

qwen3.6-27b scores 77.2% on SWE-bench. the dense model is winning against MoE.

El modelo denso Qwen3.6-27B superó al modelo MoE Qwen3.6-35B-A3B en SWE-bench, obteniendo un 77.2% frente a un 73.4%. Esto sugiere que los modelos densos podrían ser más efectivos para tareas de ingeniería de software reales.

AI models Model Architecture Benchmarks MoE

RESEARCHarXiv CS.LG·9/4/2026

TalkLoRA: Communication-Aware Mixture of Low-Rank Adaptation for Large Language Models

TalkLoRA propõe um framework MoELoRA que aborda a instabilidade de roteamento e a dominância de especialistas em métodos existentes, permitindo a comunicação entre especialistas antes do roteamento. Isso é feito através de um Módulo de Conversação leve, que facilita a troca de informações, gerando um sinal de roteamento mais robusto para Large Language Models (LLMs).

LLMs MoE Communication Fine-tuning

RESEARCHarXiv CS.LG·hace 20d

HELLoRA: Hot Experts Layer-Level Low-Rank Adaptation for Mixture-of-Experts Models

HELLoRA propone un nuevo método para el ajuste fino de modelos Mixture-of-Experts (MoE), aplicando módulos Low-Rank Adaptation (LoRA) solo a los expertos más frecuentemente activados en cada capa. Esta técnica reduce significativamente los parámetros entrenables y mejora el rendimiento, atribuyendo su éxito a la regularización estructurada que mantiene la especialización preentrenada de los expertos.

LLMs MoE AI Fine-tuning

ARTICLEDEV.to AI·hace 18d

MiniMax M2.7 API Pricing 2026: Free Tier, Setup, and How It Stacks Against DeepSeek and Kimi

MiniMax M2.7 es un modelo de IA competitivo de 230 mil millones de parámetros y Mixture-of-Experts, lanzado en marzo de 2026. Diseñado para flujos de trabajo "agentic", ofrece capacidades que se acercan a las de competidores propietarios. El modelo mantiene costos operativos significativamente más bajos para organizaciones que implementan sistemas basados en agentes.

AI models MoE Agentic AI MiniMax M2.7

NEWSQwen Blog·28/4/2025

Qwen3: Think Deeper, Act Faster

Qwen3, a nova família de modelos de linguagem, foi lançada, com o modelo principal Qwen3-235B-A22B alcançando resultados competitivos em benchmarks. Modelos menores como Qwen3-30B-A3B e Qwen3-4B também demonstraram desempenho superior em comparação com outros modelos.

AI models Benchmarks MoE Qwen3

ARTICLEQwen Blog·28/1/2025

Qwen2.5-Max: Exploring the Intelligence of Large-scale MoE Model

O conteúdo explora a importância da escalabilidade contínua de dados e modelos (densos ou Mixture-of-Expert) para aprimorar a inteligência artificial, destacando a experiência limitada da comunidade na área. Menciona que detalhes críticos de escalabilidade foram recentemente divulgados pelo DeepSeek V3 e que o Qwen2 está em desenvolvimento.

IA modelos de linguagem MoE

ARTICLEQwen Blog·20/1/2025

Global-batch load balance almost free lunch to improve your MoE LLM training

O conteúdo introduz a arquitetura Mixture-of-Experts (MoE) como uma técnica popular para escalar parâmetros de modelos. Ele descreve a camada MoE consistindo de um roteador e um grupo de experts, onde apenas um subconjunto é ativado para processar uma entrada.

deep learning Training MoE Neural Architecture