Mixture of Experts

22 items

DOC↑ trendingReddit r/LocalLLaMA·il y a 27j

AIDC-AI/Ovis2.6-80B-A3B · Hugging Face

Ovis2.6-80B-A3B est présenté comme la dernière avancée des Modèles de Langage Multimodaux (MLLMs), intégrant une architecture Mixture-of-Experts (MoE) pour des performances multimodales supérieures à un coût de service réduit. Il apporte également des améliorations majeures dans la compréhension de contexte long et de haute résolution, le raisonnement visuel et la compréhension de documents denses en informations.

AI models multimodal AI Mixture of Experts large language models

ARTICLE↑ trendingHacker News (AI)·il y a 11j

Liquid AI reveals 8B-A1B MoE trained on 38T

Liquid AI a dévoilé son nouveau modèle 8B-A1B MoE, entraîné sur 38 mille milliards de jetons, marquant une avancée significative dans le développement de modèles d'IA. Cette annonce témoigne des progrès de l'entreprise en matière d'architectures d'IA avancées.

AI models Mixture of Experts large language models AI development

ARTICLEDEV.to AI·11/04/2026

A Review of Sparse Expert Models in Deep Learning

Ce contenu analyse les Modèles d'Experts Épars en Deep Learning, une architecture fondamentale pour l'évolutivité et l'efficacité des grands réseaux neuronaux. La revue explore leur application et leur impact dans le domaine de l'intelligence artificielle avancée.

neural networks deep learning Sparse Models AI Architectures

RESEARCHarXiv CS.AI·09/05/2026

ZAYA1-8B Technical Report

ZAYA1-8B est un modèle de mélange d'experts (MoE) axé sur le raisonnement avec 700 millions de paramètres actifs, surpassant DeepSeek-R1-0528 sur plusieurs benchmarks de mathématiques et de codage. Entraîné à partir de zéro pour le raisonnement sur une plateforme AMD, il utilise une cascade de RL en quatre étapes pour le post-apprentissage.

AI models AI training machine learning Benchmarking

RESEARCHDEV.to AI·il y a 25j

Shared expert pool reduces parameters while maintaining performance

Les conceptions conventionnelles de Mixture-of-Experts augmentent les paramètres linéairement avec la profondeur en attribuant des ensembles d'experts privés à chaque couche de transformateur. Une nouvelle approche, UniPool, la remplace par un pool d'experts unique et partagé globalement d'où tous les routeurs tirent parti, réduisant considérablement le nombre total de paramètres d'experts tout en maintenant une qualité prédictive comparable.

Parameter efficiency Deep learning architecture AI optimization Mixture of Experts

ARTICLEDEV.to AI·09/05/2026

EMO Sparks AI Breakthrough with Pretraining Mixture of Experts

EMO introduit la modularité émergente via un mélange d'experts, réduisant considérablement les coûts d'entraînement de l'IA et améliorant l'adaptabilité des modèles. Cette approche pourrait remodeler l'apprentissage automatique, rendant les modèles plus efficaces et plus adaptables pour de futures avancées.

machine learning EMO Mixture of Experts AI

RESEARCHDEV.to AI·17/04/2026

Qwen3.6-35B-A3B Complete Review: Alibaba's Open-Source Coding Model That Beats Frontier Giants

Qwen3.6-35B-A3B est le nouveau modèle MoE éparse open-source d'Alibaba, offrant une grande efficacité pour un déploiement local avec 3B de paramètres actifs par jeton. Publié sous la licence Apache 2.0, il surpasse les modèles denses de 27B de paramètres et rivalise avec les géants de la frontière sur les benchmarks de codage.

open-source AI Benchmarking coding AI Mixture of Experts

RESEARCHarXiv CS.LG·17/04/2026

Awakening Dormant Experts:Counterfactual Routing to Mitigate MoE Hallucinations

Les modèles Mixture-of-Experts (MoE) sont sujets aux hallucinations, surtout avec les connaissances à longue traîne, car le routage Top-k statique sous-priorise les experts spécialistes. Le routage contrefactuel (CoR) est proposé comme un cadre d'inférence sans entraînement qui utilise l'analyse de perturbation et le CEI pour déplacer dynamiquement les ressources de calcul, réveillant ainsi ces experts dormants.

neural networks AI hallucinations deep learning Mixture of Experts

NEWSDEV.to AI·il y a 18j

Qwen3-Coder-Next: 80B total, 3B active, 70.6 on SWE-Bench

Qwen3-Coder-Next est un modèle MoE épars de 80 milliards de paramètres au total (3 milliards actifs) qui atteint un score de 70.6 sur SWE-Bench Verified. Il intègre un mécanisme d'attention hybride et des poids Apache 2.0, étant une variante optimisée pour le codage.

Benchmarking code generation Mixture of Experts large language models

ARTICLEDEV.to AI·il y a 15j

GLM-4: The Chinese-English Bilingual Workhorse You Didn't Know You Needed

GLM-4 est un modèle d'IA bilingue chinois-anglais de l'Université Tsinghua / Zhipu AI, optimisé dès le départ pour les deux langues, contrairement à la plupart des modèles centrés sur l'anglais. Il dispose d'une architecture Mixture of Experts pour une inférence rapide, d'un long contexte allant jusqu'à 128K tokens et se concentre sur l'appel de fonctions et les flux de travail d'agents.

bilingual AI Function Calling Natural Language Processing Mixture of Experts

RESEARCHHugging Face Blog·08/05/2026

EMO: Pretraining mixture of experts for emergent modularity

EMO propose une approche de pré-entraînement pour les modèles Mixture of Experts (MoE), visant à atteindre une modularité émergente. Cette méthode se concentre sur le développement de composants spécialisés au sein du modèle pendant la phase de pré-entraînement.

Emergent Modularity AI models pretraining machine learning

RESEARCHarXiv CS.LG·06/04/2026

LiME: Lightweight Mixture of Experts for Efficient Multimodal Multi-task Learning

O LiME (Lightweight Mixture of Experts) propõe uma nova abordagem para MoE-PEFT, utilizando modulação leve de um único módulo PEFT compartilhado em vez de adaptadores separados por especialista. Isso reduz significativamente os parâmetros, introduz roteamento de parâmetros zero e generaliza para qualquer método PEFT, superando as limitações de escalabilidade e aplicabilidade.

multi-task learning model efficiency Deep Learning Architectures Mixture of Experts

RESEARCHarXiv CS.LG·il y a 19j

CP-MoE: Consistency-Preserving Mixture-of-Experts for Continual Learning

CP-MoE s'attaque à l'oubli catastrophique dans l'apprentissage continu pour les LLM et VLM utilisant des architectures Mixture-of-Experts. Il introduit un expert transitoire et un routage préservant la cohérence pour intégrer de nouvelles connaissances tout en empêchant l'écrasement des paramètres existants.

LLMs VLMs learning Mixture of Experts

RESEARCHarXiv CS.AI·17/04/2026

Equifinality in Mixture of Experts: Routing Topology Does Not Determine Language Modeling Quality

Cet article examine si la topologie de routage détermine réellement la qualité de la modélisation linguistique dans les architectures Mixture-of-Experts (MoE). Les auteurs ont constaté que différentes variantes de routage, y compris une nouvelle basée sur la similarité cosinus, entraînent une perplexité asymptotique statistiquement équivalente, suggérant que la conception du routage a un impact moindre sur la qualité finale qu'on ne le pensait.

neural networks routing algorithms Mixture of Experts Language modeling

RESEARCHarXiv CS.LG·07/05/2026

MP-ISMoE: Mixed-Precision Interactive Side Mixture-of-Experts for Efficient Transfer Learning

Cette recherche présente MP-ISMoE, un cadre de Mixture-of-Experts Latérale Interactive en Précision Mixte, pour améliorer l'apprentissage par transfert économe en paramètres en atténuant la surcharge mémoire. Il utilise un schéma de Quantification Itérative Perturbée par Bruit Gaussien (GNP-IQ) pour la quantification des poids à faible nombre de bits, libérant de la mémoire pour améliorer la capacité d'apprentissage et les performances du réseau latéral.

model efficiency learning Transfer Learning quantization

RESEARCHarXiv CS.CL·il y a 27j

HEBATRON: A Hebrew-Specialized Open-Weight Mixture-of-Experts Language Model

Hebatron est un grand modèle linguistique open-source spécialisé dans l'hébreu, basé sur l'architecture Mixture-of-Experts (MoE) Nemotron-3 de NVIDIA. Il atteint une moyenne de raisonnement en hébreu de 73,8%, surpassant ses concurrents et offrant un débit d'inférence nettement supérieur en activant moins de paramètres par passe.

language models NVIDIA AI Hebrew AI Mixture of Experts

RESEARCHarXiv CS.LG·il y a 12j

Tackling Multimodal Learning Challenges with Mixture-of-Expert: A Survey

Cet article présente une étude qui aborde les défis de l'apprentissage multimodal avec l'architecture Mixture-of-Experts (MoE). L'étude explore comment le MoE fonctionne comme un moteur efficace et un apprenant de représentations pour intégrer diverses modalités de données. Elle comble une lacune dans la littérature en offrant une revue systématique et complète sur le sujet.

multimodal learning Survey Mixture of Experts AI

ARTICLEDEV.to AI·14/04/2026

MiniMax M2 on OpenClaw: Setup, Pricing, and Performance...

L'article présente la famille de grands modèles linguistiques MiniMax M2, utilisant une architecture Mixture of Experts pour des performances élevées à faible coût d'inférence. Le modèle M2.7 atteint 90 % de la qualité des modèles de pointe pour 7 % du coût, avec des résultats de référence comparables à Claude Sonnet 4.

OpenClaw AI performance Mixture of Experts MiniMax M2

RESEARCHarXiv CS.LG·06/05/2026

Agentic AI-Based Joint Computing and Networking via Mixture of Experts and Large Language Models

Cet article propose un cadre d'optimisation de réseau basé sur l'IA agentique qui intègre des architectures de mélange d'experts (MoE) avec des grands modèles de langage (LLMs). Le LLM agit comme une passerelle sémantique pour raisonner sur les objectifs de l'opérateur et composer dynamiquement des agents d'optimisation appropriés pour les réseaux mobiles 6G.

Network Optimization 6G Networks Agentic AI Mixture of Experts

DOCHugging Face (YouTube)·15/04/2026

What are Mixture-of-Experts Models | ft. Aritra

Ce contenu explique ce que sont les Modèles de Mélange d'Experts (MoE), une architecture de réseau neuronal qui combine plusieurs 'experts' pour traiter différentes parties des données. L'article, avec la participation d'Aritra, détaille comment ces modèles fonctionnent et leurs applications dans le domaine de l'intelligence artificielle.

AI models machine learning Mixture of Experts

What are Mixture-of-Experts Models | ft. Aritra