← heapsort-ai

MoE

21 items

ARTICLE↑ trendingReddit r/LocalLLaMA·15/4/2026

Hot Experts in your VRAM! Dynamic expert cache in llama.cpp for 27% faster CPU +GPU token generation with Qwen3.5-122B-A10B compared to layer-based single-GPU partial offload

Este artículo detalla una nueva estrategia de caché de expertos dinámicos en llama.cpp para acelerar la generación de tokens en grandes modelos MoE como Qwen3.5-122B-A10B. El enfoque carga los expertos más utilizados en la VRAM, lo que resulta en una generación de tokens hasta un 26,8% más rápida en comparación con la descarga parcial basada en capas.

43
RESEARCH↑ trendingReddit r/LocalLLaMA·18/4/2026

Accidentally discovered you can teach frozen MoE models new knowledge by just steering their expert routing — no training needed

Un nuevo método permite enseñar nuevos conocimientos a modelos MoE "congelados" dirigiendo su enrutamiento de expertos, sin necesidad de entrenamiento tradicional. Denominada Inteligencia Cognitiva Adaptativa (ACI), esta técnica demostró corregir errores fácticos en Gemma 4 usando solo un pequeño archivo de configuración.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·18/4/2026

RTX 5070 Ti + 9800X3D running Qwen3.6-35B-A3B at 79 t/s with 128K context, the --n-cpu-moe flag is the most important part.

El contenido detalla cómo optimizar Qwen3.6-35B-A3B en hardware de consumo (RTX 5070 Ti, Ryzen 9800X3D), logrando 79 t/s con contexto de 128K. El hallazgo clave es el uso correcto de la bandera `--n-cpu-moe N` en llama.cpp, que supera significativamente a la común `--cpu-moe` al usar más VRAM de la GPU para los expertos MoE.

42
NEWS↑ trendingReddit r/LocalLLaMA·9/4/2026

Marco-Mini (17.3B, 0.86B active) and Marco-Nano (8B, 0.6B active) by Alibaba

A Alibaba lançou recentemente os modelos Marco-Mini e Marco-Nano, variantes instrucionadas de modelos de linguagem multilingues altamente esparsos baseados em Mixture-of-Experts (MoE). O Marco-Mini, com apenas 0.86B de 17.3B parâmetros ativos, destaca-se por superar outros modelos de até 12B de parâmetros ativados em benchmarks de desempenho.

42
RESEARCH↑ trendingReddit r/LocalLLaMA·18/4/2026

Qwen 3.6 35B A3B Q4_K_M quant evaluation

Este contenido evalúa el rendimiento del modelo MoE cuantificado Qwen 3.6 35B A3B Q4_K_M en CPU, utilizando benchmarks como HumanEval, HellaSwag y BFCL. Alcanzó 22 tokens/seg, mostrando un fuerte rendimiento en razonamiento de sentido común (74%) y resultados sólidos para un modelo MoE activo de 3B.

Qwen 3.6 35B A3B Q4_K_M quant evaluation
42
RESEARCH↑ trendingReddit r/LocalLLaMA·22/4/2026

Dense vs. MoE gap is shrinking fast with the 3.6-27B release

Los modelos de IA densos superan actualmente a los MoE en general, pero los MoE están alcanzando rápidamente, particularmente en los benchmarks de codificación. Para usuarios con 24GB de VRAM y necesidad de grandes ventanas de contexto, el MoE se está convirtiendo en una opción más atractiva.

Dense vs. MoE gap is shrinking fast with the 3.6-27B release
41
RESEARCHarXiv CS.LG·9/4/2026

TalkLoRA: Communication-Aware Mixture of Low-Rank Adaptation for Large Language Models

TalkLoRA propõe um framework MoELoRA que aborda a instabilidade de roteamento e a dominância de especialistas em métodos existentes, permitindo a comunicação entre especialistas antes do roteamento. Isso é feito através de um Módulo de Conversação leve, que facilita a troca de informações, gerando um sinal de roteamento mais robusto para Large Language Models (LLMs).

27
RESEARCHarXiv CS.LG·hace 20d

HELLoRA: Hot Experts Layer-Level Low-Rank Adaptation for Mixture-of-Experts Models

HELLoRA propone un nuevo método para el ajuste fino de modelos Mixture-of-Experts (MoE), aplicando módulos Low-Rank Adaptation (LoRA) solo a los expertos más frecuentemente activados en cada capa. Esta técnica reduce significativamente los parámetros entrenables y mejora el rendimiento, atribuyendo su éxito a la regularización estructurada que mantiene la especialización preentrenada de los expertos.

27
ARTICLEDEV.to AI·hace 18d

MiniMax M2.7 API Pricing 2026: Free Tier, Setup, and How It Stacks Against DeepSeek and Kimi

MiniMax M2.7 es un modelo de IA competitivo de 230 mil millones de parámetros y Mixture-of-Experts, lanzado en marzo de 2026. Diseñado para flujos de trabajo "agentic", ofrece capacidades que se acercan a las de competidores propietarios. El modelo mantiene costos operativos significativamente más bajos para organizaciones que implementan sistemas basados en agentes.

27
NEWSQwen Blog·28/4/2025

Qwen3: Think Deeper, Act Faster

Qwen3, a nova família de modelos de linguagem, foi lançada, com o modelo principal Qwen3-235B-A22B alcançando resultados competitivos em benchmarks. Modelos menores como Qwen3-30B-A3B e Qwen3-4B também demonstraram desempenho superior em comparação com outros modelos.

23
ARTICLEQwen Blog·28/1/2025

Qwen2.5-Max: Exploring the Intelligence of Large-scale MoE Model

O conteúdo explora a importância da escalabilidade contínua de dados e modelos (densos ou Mixture-of-Expert) para aprimorar a inteligência artificial, destacando a experiência limitada da comunidade na área. Menciona que detalhes críticos de escalabilidade foram recentemente divulgados pelo DeepSeek V3 e que o Qwen2 está em desenvolvimento.

23