← heapsort-ai

Mixture of Experts

22 items

DOC↑ trendingReddit r/LocalLLaMA·hace 27d

AIDC-AI/Ovis2.6-80B-A3B · Hugging Face

Se presenta Ovis2.6-80B-A3B como el último avance en Modelos de Lenguaje Grandes Multimodales (MLLMs), mejorando a una arquitectura Mixture-of-Experts (MoE) para un rendimiento multimodal superior con costos de servicio reducidos. También incorpora mejoras importantes en la comprensión de contexto largo y alta resolución, el razonamiento visual y la comprensión de documentos densos en información.

AIDC-AI/Ovis2.6-80B-A3B · Hugging Face
44
RESEARCHarXiv CS.AI·9/5/2026

ZAYA1-8B Technical Report

ZAYA1-8B es un modelo de mezcla de expertos (MoE) enfocado en el razonamiento con 700M de parámetros activos, superando a DeepSeek-R1-0528 en benchmarks de matemáticas y codificación. Fue entrenado desde cero para el razonamiento en una plataforma AMD y utiliza una cascada de RL de cuatro etapas para el post-entrenamiento.

29
RESEARCHDEV.to AI·hace 25d

Shared expert pool reduces parameters while maintaining performance

Los diseños convencionales de Mixture-of-Experts aumentan los parámetros linealmente con la profundidad al asignar conjuntos de expertos privados a cada capa del transformador. Un nuevo enfoque, UniPool, lo reemplaza con un grupo de expertos único y compartido globalmente del que todos los enrutadores se benefician, reduciendo drásticamente el recuento total de parámetros de expertos mientras mantiene una calidad predictiva comparable.

29
RESEARCHarXiv CS.LG·17/4/2026

Awakening Dormant Experts:Counterfactual Routing to Mitigate MoE Hallucinations

Los modelos Mixture-of-Experts (MoE) son propensos a alucinaciones, particularmente con conocimiento de cola larga, debido a que el enrutamiento Top-k estático subprioriza a los expertos especialistas. Se propone el Enrutamiento Contrafactual (CoR), un marco de inferencia sin entrenamiento que utiliza análisis de perturbación y CEI para desplazar dinámicamente los recursos computacionales, despertando así a estos expertos inactivos.

28
ARTICLEDEV.to AI·hace 15d

GLM-4: The Chinese-English Bilingual Workhorse You Didn't Know You Needed

GLM-4 es un modelo de IA bilingüe chino-inglés de la Universidad de Tsinghua / Zhipu AI, optimizado desde cero para ambos idiomas, a diferencia de la mayoría de los modelos centrados en inglés. Presenta una arquitectura de Mezcla de Expertos para inferencia rápida, contexto largo de hasta 128K tokens y un enfoque en llamadas a funciones y flujos de trabajo de agentes.

27
RESEARCHarXiv CS.LG·6/4/2026

LiME: Lightweight Mixture of Experts for Efficient Multimodal Multi-task Learning

O LiME (Lightweight Mixture of Experts) propõe uma nova abordagem para MoE-PEFT, utilizando modulação leve de um único módulo PEFT compartilhado em vez de adaptadores separados por especialista. Isso reduz significativamente os parâmetros, introduz roteamento de parâmetros zero e generaliza para qualquer método PEFT, superando as limitações de escalabilidade e aplicabilidade.

27
RESEARCHarXiv CS.AI·17/4/2026

Equifinality in Mixture of Experts: Routing Topology Does Not Determine Language Modeling Quality

Este artículo investiga si la topología de enrutamiento realmente determina la calidad del modelado de lenguaje en arquitecturas Mixture-of-Experts (MoE). Los autores descubrieron que diferentes variantes de enrutamiento, incluida una novedosa basada en la similitud del coseno, dan como resultado una perplejidad asintótica estadísticamente equivalente, lo que sugiere que el diseño del enrutamiento tiene un impacto menor de lo que se pensaba en la calidad final.

27
RESEARCHarXiv CS.LG·7/5/2026

MP-ISMoE: Mixed-Precision Interactive Side Mixture-of-Experts for Efficient Transfer Learning

Esta investigación introduce MP-ISMoE, un marco de Mixture-of-Experts Lateral Interactivo de Precisión Mixta, para mejorar el aprendizaje por transferencia eficiente en parámetros al mitigar la sobrecarga de memoria. Emplea un esquema de Cuantificación Iterativa Perturbada por Ruido Gaussiano (GNP-IQ) para la cuantificación de pesos de menor bit, liberando memoria para mejorar la capacidad de aprendizaje y el rendimiento de la red lateral.

27
RESEARCHarXiv CS.CL·hace 27d

HEBATRON: A Hebrew-Specialized Open-Weight Mixture-of-Experts Language Model

Hebatron es un modelo de lenguaje grande de código abierto especializado en hebreo, construido sobre la arquitectura Mixture-of-Experts (MoE) Nemotron-3 de NVIDIA. Logra un promedio de razonamiento en hebreo del 73,8%, superando a sus competidores y ofreciendo un rendimiento de inferencia significativamente mayor al activar menos parámetros por pasada.

27
RESEARCHarXiv CS.LG·hace 12d

Tackling Multimodal Learning Challenges with Mixture-of-Expert: A Survey

Este artículo presenta una encuesta que aborda los desafíos del aprendizaje multimodal con la arquitectura Mixture-of-Experts (MoE). El estudio explora cómo MoE funciona como un motor eficiente y un aprendiz de representación para integrar diversas modalidades de datos. Llena un vacío en la literatura al ofrecer una revisión sistemática y exhaustiva sobre el tema.

27
RESEARCHarXiv CS.LG·6/5/2026

Agentic AI-Based Joint Computing and Networking via Mixture of Experts and Large Language Models

Este artículo propone un marco de optimización de red basado en inteligencia artificial agentica que integra arquitecturas de mezcla de expertos (MoE) con grandes modelos de lenguaje (LLMs). El LLM actúa como una puerta semántica para razonar sobre los objetivos del operador y componer dinámicamente agentes de optimización adecuados para redes móviles 6G.

27
DOCHugging Face (YouTube)·15/4/2026

What are Mixture-of-Experts Models | ft. Aritra

Este contenido explica qué son los Modelos de Mezcla de Expertos (MoE), una arquitectura de red neuronal que combina múltiples 'expertos' para procesar diferentes partes de los datos. El artículo, con la participación de Aritra, detalla cómo funcionan estos modelos y sus aplicaciones en el campo de la inteligencia artificial.

What are Mixture-of-Experts Models | ft. Aritra
27