← heapsort-ai

Mixture of Experts

22 items

DOC↑ trendingReddit r/LocalLLaMA·il y a 27j

AIDC-AI/Ovis2.6-80B-A3B · Hugging Face

Ovis2.6-80B-A3B est présenté comme la dernière avancée des Modèles de Langage Multimodaux (MLLMs), intégrant une architecture Mixture-of-Experts (MoE) pour des performances multimodales supérieures à un coût de service réduit. Il apporte également des améliorations majeures dans la compréhension de contexte long et de haute résolution, le raisonnement visuel et la compréhension de documents denses en informations.

AIDC-AI/Ovis2.6-80B-A3B · Hugging Face
44
RESEARCHarXiv CS.AI·09/05/2026

ZAYA1-8B Technical Report

ZAYA1-8B est un modèle de mélange d'experts (MoE) axé sur le raisonnement avec 700 millions de paramètres actifs, surpassant DeepSeek-R1-0528 sur plusieurs benchmarks de mathématiques et de codage. Entraîné à partir de zéro pour le raisonnement sur une plateforme AMD, il utilise une cascade de RL en quatre étapes pour le post-apprentissage.

29
RESEARCHDEV.to AI·il y a 25j

Shared expert pool reduces parameters while maintaining performance

Les conceptions conventionnelles de Mixture-of-Experts augmentent les paramètres linéairement avec la profondeur en attribuant des ensembles d'experts privés à chaque couche de transformateur. Une nouvelle approche, UniPool, la remplace par un pool d'experts unique et partagé globalement d'où tous les routeurs tirent parti, réduisant considérablement le nombre total de paramètres d'experts tout en maintenant une qualité prédictive comparable.

29
RESEARCHDEV.to AI·17/04/2026

Qwen3.6-35B-A3B Complete Review: Alibaba's Open-Source Coding Model That Beats Frontier Giants

Qwen3.6-35B-A3B est le nouveau modèle MoE éparse open-source d'Alibaba, offrant une grande efficacité pour un déploiement local avec 3B de paramètres actifs par jeton. Publié sous la licence Apache 2.0, il surpasse les modèles denses de 27B de paramètres et rivalise avec les géants de la frontière sur les benchmarks de codage.

28
RESEARCHarXiv CS.LG·17/04/2026

Awakening Dormant Experts:Counterfactual Routing to Mitigate MoE Hallucinations

Les modèles Mixture-of-Experts (MoE) sont sujets aux hallucinations, surtout avec les connaissances à longue traîne, car le routage Top-k statique sous-priorise les experts spécialistes. Le routage contrefactuel (CoR) est proposé comme un cadre d'inférence sans entraînement qui utilise l'analyse de perturbation et le CEI pour déplacer dynamiquement les ressources de calcul, réveillant ainsi ces experts dormants.

28
ARTICLEDEV.to AI·il y a 15j

GLM-4: The Chinese-English Bilingual Workhorse You Didn't Know You Needed

GLM-4 est un modèle d'IA bilingue chinois-anglais de l'Université Tsinghua / Zhipu AI, optimisé dès le départ pour les deux langues, contrairement à la plupart des modèles centrés sur l'anglais. Il dispose d'une architecture Mixture of Experts pour une inférence rapide, d'un long contexte allant jusqu'à 128K tokens et se concentre sur l'appel de fonctions et les flux de travail d'agents.

27
RESEARCHarXiv CS.LG·06/04/2026

LiME: Lightweight Mixture of Experts for Efficient Multimodal Multi-task Learning

O LiME (Lightweight Mixture of Experts) propõe uma nova abordagem para MoE-PEFT, utilizando modulação leve de um único módulo PEFT compartilhado em vez de adaptadores separados por especialista. Isso reduz significativamente os parâmetros, introduz roteamento de parâmetros zero e generaliza para qualquer método PEFT, superando as limitações de escalabilidade e aplicabilidade.

27
RESEARCHarXiv CS.AI·17/04/2026

Equifinality in Mixture of Experts: Routing Topology Does Not Determine Language Modeling Quality

Cet article examine si la topologie de routage détermine réellement la qualité de la modélisation linguistique dans les architectures Mixture-of-Experts (MoE). Les auteurs ont constaté que différentes variantes de routage, y compris une nouvelle basée sur la similarité cosinus, entraînent une perplexité asymptotique statistiquement équivalente, suggérant que la conception du routage a un impact moindre sur la qualité finale qu'on ne le pensait.

27
RESEARCHarXiv CS.LG·07/05/2026

MP-ISMoE: Mixed-Precision Interactive Side Mixture-of-Experts for Efficient Transfer Learning

Cette recherche présente MP-ISMoE, un cadre de Mixture-of-Experts Latérale Interactive en Précision Mixte, pour améliorer l'apprentissage par transfert économe en paramètres en atténuant la surcharge mémoire. Il utilise un schéma de Quantification Itérative Perturbée par Bruit Gaussien (GNP-IQ) pour la quantification des poids à faible nombre de bits, libérant de la mémoire pour améliorer la capacité d'apprentissage et les performances du réseau latéral.

27
RESEARCHarXiv CS.CL·il y a 27j

HEBATRON: A Hebrew-Specialized Open-Weight Mixture-of-Experts Language Model

Hebatron est un grand modèle linguistique open-source spécialisé dans l'hébreu, basé sur l'architecture Mixture-of-Experts (MoE) Nemotron-3 de NVIDIA. Il atteint une moyenne de raisonnement en hébreu de 73,8%, surpassant ses concurrents et offrant un débit d'inférence nettement supérieur en activant moins de paramètres par passe.

27
RESEARCHarXiv CS.LG·il y a 12j

Tackling Multimodal Learning Challenges with Mixture-of-Expert: A Survey

Cet article présente une étude qui aborde les défis de l'apprentissage multimodal avec l'architecture Mixture-of-Experts (MoE). L'étude explore comment le MoE fonctionne comme un moteur efficace et un apprenant de représentations pour intégrer diverses modalités de données. Elle comble une lacune dans la littérature en offrant une revue systématique et complète sur le sujet.

27
RESEARCHarXiv CS.LG·06/05/2026

Agentic AI-Based Joint Computing and Networking via Mixture of Experts and Large Language Models

Cet article propose un cadre d'optimisation de réseau basé sur l'IA agentique qui intègre des architectures de mélange d'experts (MoE) avec des grands modèles de langage (LLMs). Le LLM agit comme une passerelle sémantique pour raisonner sur les objectifs de l'opérateur et composer dynamiquement des agents d'optimisation appropriés pour les réseaux mobiles 6G.

27
DOCHugging Face (YouTube)·15/04/2026

What are Mixture-of-Experts Models | ft. Aritra

Ce contenu explique ce que sont les Modèles de Mélange d'Experts (MoE), une architecture de réseau neuronal qui combine plusieurs 'experts' pour traiter différentes parties des données. L'article, avec la participation d'Aritra, détaille comment ces modèles fonctionnent et leurs applications dans le domaine de l'intelligence artificielle.

What are Mixture-of-Experts Models | ft. Aritra
27