Mixture of Experts

22 items

DOC↑ trendingReddit r/LocalLLaMA·hace 27d

AIDC-AI/Ovis2.6-80B-A3B · Hugging Face

Se presenta Ovis2.6-80B-A3B como el último avance en Modelos de Lenguaje Grandes Multimodales (MLLMs), mejorando a una arquitectura Mixture-of-Experts (MoE) para un rendimiento multimodal superior con costos de servicio reducidos. También incorpora mejoras importantes en la comprensión de contexto largo y alta resolución, el razonamiento visual y la comprensión de documentos densos en información.

AI models multimodal AI Mixture of Experts large language models

ARTICLE↑ trendingHacker News (AI)·hace 11d

Liquid AI reveals 8B-A1B MoE trained on 38T

Liquid AI ha presentado su nuevo modelo 8B-A1B MoE, entrenado con 38 billones de tokens, lo que representa un avance significativo en el desarrollo de modelos de IA. Este lanzamiento muestra el progreso de la compañía en arquitecturas de IA avanzadas.

AI models Mixture of Experts large language models AI development

ARTICLEDEV.to AI·11/4/2026

A Review of Sparse Expert Models in Deep Learning

Este contenido analiza los Modelos de Expertos Escasos en Deep Learning, una arquitectura fundamental para la escalabilidad y eficiencia de grandes redes neuronales. La revisión explora su aplicación e impacto en el campo de la inteligencia artificial avanzada.

neural networks deep learning Sparse Models AI Architectures

RESEARCHarXiv CS.AI·9/5/2026

ZAYA1-8B Technical Report

ZAYA1-8B es un modelo de mezcla de expertos (MoE) enfocado en el razonamiento con 700M de parámetros activos, superando a DeepSeek-R1-0528 en benchmarks de matemáticas y codificación. Fue entrenado desde cero para el razonamiento en una plataforma AMD y utiliza una cascada de RL de cuatro etapas para el post-entrenamiento.

AI models AI training machine learning Benchmarking

RESEARCHDEV.to AI·hace 25d

Shared expert pool reduces parameters while maintaining performance

Los diseños convencionales de Mixture-of-Experts aumentan los parámetros linealmente con la profundidad al asignar conjuntos de expertos privados a cada capa del transformador. Un nuevo enfoque, UniPool, lo reemplaza con un grupo de expertos único y compartido globalmente del que todos los enrutadores se benefician, reduciendo drásticamente el recuento total de parámetros de expertos mientras mantiene una calidad predictiva comparable.

Parameter efficiency Deep learning architecture AI optimization Mixture of Experts

ARTICLEDEV.to AI·9/5/2026

EMO Sparks AI Breakthrough with Pretraining Mixture of Experts

EMO introduce la modularidad emergente mediante una mezcla de expertos, reduciendo drásticamente los costos de entrenamiento de IA y mejorando la adaptabilidad del modelo. Este enfoque podría transformar el aprendizaje automático, haciendo los modelos más eficientes y adaptables para futuros avances.

machine learning EMO Mixture of Experts AI

RESEARCHDEV.to AI·17/4/2026

Qwen3.6-35B-A3B Complete Review: Alibaba's Open-Source Coding Model That Beats Frontier Giants

Qwen3.6-35B-A3B es el nuevo modelo MoE disperso de código abierto de Alibaba, que ofrece alta eficiencia para despliegue local con 3B de parámetros activos por token. Lanzado bajo la licencia Apache 2.0, supera a los modelos densos de 27B de parámetros y compite con gigantes de frontera en benchmarks de codificación.

open-source AI Benchmarking coding AI Mixture of Experts

RESEARCHarXiv CS.LG·17/4/2026

Awakening Dormant Experts:Counterfactual Routing to Mitigate MoE Hallucinations

Los modelos Mixture-of-Experts (MoE) son propensos a alucinaciones, particularmente con conocimiento de cola larga, debido a que el enrutamiento Top-k estático subprioriza a los expertos especialistas. Se propone el Enrutamiento Contrafactual (CoR), un marco de inferencia sin entrenamiento que utiliza análisis de perturbación y CEI para desplazar dinámicamente los recursos computacionales, despertando así a estos expertos inactivos.

neural networks AI hallucinations deep learning Mixture of Experts

NEWSDEV.to AI·hace 18d

Qwen3-Coder-Next: 80B total, 3B active, 70.6 on SWE-Bench

Qwen3-Coder-Next es un modelo MoE disperso de 80B en total (3B activo) que obtiene una puntuación de 70.6 en SWE-Bench Verified. Incorpora un mecanismo de atención híbrida y pesos Apache 2.0, siendo una variante optimizada para codificación.

Benchmarking code generation Mixture of Experts large language models

ARTICLEDEV.to AI·hace 15d

GLM-4: The Chinese-English Bilingual Workhorse You Didn't Know You Needed

GLM-4 es un modelo de IA bilingüe chino-inglés de la Universidad de Tsinghua / Zhipu AI, optimizado desde cero para ambos idiomas, a diferencia de la mayoría de los modelos centrados en inglés. Presenta una arquitectura de Mezcla de Expertos para inferencia rápida, contexto largo de hasta 128K tokens y un enfoque en llamadas a funciones y flujos de trabajo de agentes.

bilingual AI Function Calling natural language processing Mixture of Experts

RESEARCHHugging Face Blog·8/5/2026

EMO: Pretraining mixture of experts for emergent modularity

EMO propone un enfoque de preentrenamiento para modelos Mixture of Experts (MoE), con el objetivo de lograr modularidad emergente. Este método se centra en el desarrollo de componentes especializados dentro del modelo durante la fase de preentrenamiento.

Emergent Modularity AI models pretraining machine learning

RESEARCHarXiv CS.LG·6/4/2026

LiME: Lightweight Mixture of Experts for Efficient Multimodal Multi-task Learning

O LiME (Lightweight Mixture of Experts) propõe uma nova abordagem para MoE-PEFT, utilizando modulação leve de um único módulo PEFT compartilhado em vez de adaptadores separados por especialista. Isso reduz significativamente os parâmetros, introduz roteamento de parâmetros zero e generaliza para qualquer método PEFT, superando as limitações de escalabilidade e aplicabilidade.

multi-task learning model efficiency Deep Learning Architectures Mixture of Experts

RESEARCHarXiv CS.LG·hace 19d

CP-MoE: Consistency-Preserving Mixture-of-Experts for Continual Learning

CP-MoE aborda el olvido catastrófico en el aprendizaje continuo para LLMs y VLMs que utilizan arquitecturas Mixture-of-Experts. Introduce un experto transitorio y un enrutamiento que preserva la consistencia para integrar nuevos conocimientos y evitar la sobrescritura de parámetros existentes.

LLMs VLMs learning Mixture of Experts

RESEARCHarXiv CS.AI·17/4/2026

Equifinality in Mixture of Experts: Routing Topology Does Not Determine Language Modeling Quality

Este artículo investiga si la topología de enrutamiento realmente determina la calidad del modelado de lenguaje en arquitecturas Mixture-of-Experts (MoE). Los autores descubrieron que diferentes variantes de enrutamiento, incluida una novedosa basada en la similitud del coseno, dan como resultado una perplejidad asintótica estadísticamente equivalente, lo que sugiere que el diseño del enrutamiento tiene un impacto menor de lo que se pensaba en la calidad final.

neural networks routing algorithms Mixture of Experts Language modeling

RESEARCHarXiv CS.LG·7/5/2026

MP-ISMoE: Mixed-Precision Interactive Side Mixture-of-Experts for Efficient Transfer Learning

Esta investigación introduce MP-ISMoE, un marco de Mixture-of-Experts Lateral Interactivo de Precisión Mixta, para mejorar el aprendizaje por transferencia eficiente en parámetros al mitigar la sobrecarga de memoria. Emplea un esquema de Cuantificación Iterativa Perturbada por Ruido Gaussiano (GNP-IQ) para la cuantificación de pesos de menor bit, liberando memoria para mejorar la capacidad de aprendizaje y el rendimiento de la red lateral.

model efficiency learning Transfer Learning quantization

RESEARCHarXiv CS.CL·hace 27d

HEBATRON: A Hebrew-Specialized Open-Weight Mixture-of-Experts Language Model

Hebatron es un modelo de lenguaje grande de código abierto especializado en hebreo, construido sobre la arquitectura Mixture-of-Experts (MoE) Nemotron-3 de NVIDIA. Logra un promedio de razonamiento en hebreo del 73,8%, superando a sus competidores y ofreciendo un rendimiento de inferencia significativamente mayor al activar menos parámetros por pasada.

language models NVIDIA AI Hebrew AI Mixture of Experts

RESEARCHarXiv CS.LG·hace 12d

Tackling Multimodal Learning Challenges with Mixture-of-Expert: A Survey

Este artículo presenta una encuesta que aborda los desafíos del aprendizaje multimodal con la arquitectura Mixture-of-Experts (MoE). El estudio explora cómo MoE funciona como un motor eficiente y un aprendiz de representación para integrar diversas modalidades de datos. Llena un vacío en la literatura al ofrecer una revisión sistemática y exhaustiva sobre el tema.

multimodal learning Survey Mixture of Experts AI

ARTICLEDEV.to AI·14/4/2026

MiniMax M2 on OpenClaw: Setup, Pricing, and Performance...

El artículo describe la familia de modelos de lenguaje grandes MiniMax M2, que utiliza una arquitectura Mixture of Experts para un alto rendimiento y bajo costo de inferencia. El modelo M2.7 logra el 90% de la calidad de los modelos frontera con el 7% del costo, con resultados de referencia comparables a Claude Sonnet 4.

OpenClaw AI performance Mixture of Experts MiniMax M2

RESEARCHarXiv CS.LG·6/5/2026

Agentic AI-Based Joint Computing and Networking via Mixture of Experts and Large Language Models

Este artículo propone un marco de optimización de red basado en inteligencia artificial agentica que integra arquitecturas de mezcla de expertos (MoE) con grandes modelos de lenguaje (LLMs). El LLM actúa como una puerta semántica para razonar sobre los objetivos del operador y componer dinámicamente agentes de optimización adecuados para redes móviles 6G.

Network Optimization 6G Networks Agentic AI Mixture of Experts

DOCHugging Face (YouTube)·15/4/2026

What are Mixture-of-Experts Models | ft. Aritra

Este contenido explica qué son los Modelos de Mezcla de Expertos (MoE), una arquitectura de red neuronal que combina múltiples 'expertos' para procesar diferentes partes de los datos. El artículo, con la participación de Aritra, detalla cómo funcionan estos modelos y sus aplicaciones en el campo de la inteligencia artificial.

AI models machine learning Mixture of Experts

What are Mixture-of-Experts Models | ft. Aritra