← heapsort-ai

Mixture of Experts

22 items

DOC↑ trendingReddit r/LocalLLaMA·vor 27T

AIDC-AI/Ovis2.6-80B-A3B · Hugging Face

Ovis2.6-80B-A3B wird als die neueste Entwicklung in multimodalen großen Sprachmodellen (MLLMs) vorgestellt, die das LLM-Rückgrat auf eine Mixture-of-Experts (MoE)-Architektur aufrüstet, um überlegene multimodale Leistung zu geringeren Betriebskosten zu liefern. Es bringt auch wesentliche Verbesserungen im Langkontext- und Hochauflösungsverständnis, im visuellen Denken und in der Informationsdichten Dokumentenanalyse.

AIDC-AI/Ovis2.6-80B-A3B · Hugging Face
44
RESEARCHarXiv CS.AI·5/9/2026

ZAYA1-8B Technical Report

ZAYA1-8B ist ein auf logisches Denken fokussiertes Mixture-of-Experts (MoE)-Modell mit 700 Millionen aktiven Parametern, das DeepSeek-R1-0528 bei Mathematik- und Codierungs-Benchmarks übertrifft. Es wurde von Grund auf für das Denken auf einer AMD-Plattform trainiert und nutzt eine vierstufige RL-Kaskade für das Post-Training.

29
RESEARCHDEV.to AI·vor 25T

Shared expert pool reduces parameters while maintaining performance

Konventionelle Mixture-of-Experts-Designs erhöhen die Parameter linear mit der Tiefe, indem sie jeder Transformer-Schicht eigene private Expertensätze zuweisen. Ein neuer Ansatz, UniPool, ersetzt dies durch einen einzigen, global geteilten Expertenpool, aus dem alle Router schöpfen, wodurch die Gesamtanzahl der Expertenparameter drastisch reduziert wird, während eine vergleichbare Vorhersagequalität erhalten bleibt.

29
RESEARCHDEV.to AI·4/17/2026

Qwen3.6-35B-A3B Complete Review: Alibaba's Open-Source Coding Model That Beats Frontier Giants

Qwen3.6-35B-A3B ist Alibabas neues quelloffenes, spärliches Mixture-of-Experts (MoE) Modell, das mit 3 Milliarden aktiven Parametern pro Token hohe Effizienz für die lokale Bereitstellung bietet. Unter Apache 2.0 veröffentlicht, übertrifft es dichte Modelle mit 27 Milliarden Parametern und konkurriert auf Code-Benchmarks mit führenden Giganten.

28
RESEARCHarXiv CS.LG·4/17/2026

Awakening Dormant Experts:Counterfactual Routing to Mitigate MoE Hallucinations

MoE-Modelle neigen zu Halluzinationen, insbesondere bei Long-Tail-Wissen, da statisches Top-k-Routing Spezialistenexperten unterpriorisiert. Counterfactual Routing (CoR) wird als trainingsfreies Inferenz-Framework vorgeschlagen, das mittels Störungsanalyse und CEI Rechenressourcen dynamisch verschiebt und so schlafende Experten aktiviert.

28
ARTICLEDEV.to AI·vor 15T

GLM-4: The Chinese-English Bilingual Workhorse You Didn't Know You Needed

GLM-4 ist ein chinesisch-englisches zweisprachiges KI-Modell der Tsinghua University / Zhipu AI, das im Gegensatz zu den meisten englischzentrierten Modellen von Grund auf für beide Sprachen optimiert wurde. Es verfügt über eine Mixture-of-Experts-Architektur für schnelle Inferenz, einen langen Kontext von bis zu 128.000 Tokens und konzentriert sich auf Funktionsaufrufe und Agenten-Workflows.

27
RESEARCHarXiv CS.LG·4/6/2026

LiME: Lightweight Mixture of Experts for Efficient Multimodal Multi-task Learning

O LiME (Lightweight Mixture of Experts) propõe uma nova abordagem para MoE-PEFT, utilizando modulação leve de um único módulo PEFT compartilhado em vez de adaptadores separados por especialista. Isso reduz significativamente os parâmetros, introduz roteamento de parâmetros zero e generaliza para qualquer método PEFT, superando as limitações de escalabilidade e aplicabilidade.

27
RESEARCHarXiv CS.AI·4/17/2026

Equifinality in Mixture of Experts: Routing Topology Does Not Determine Language Modeling Quality

Diese Arbeit untersucht, ob die Routing-Topologie tatsächlich die Qualität der Sprachmodellierung in Mixture-of-Experts (MoE)-Architekturen bestimmt. Die Autoren fanden, dass verschiedene Routing-Varianten, einschließlich einer neuartigen auf Kosinus-Ähnlichkeit basierenden, zu statistisch äquivalenter asymptotischer Perplexität führen, was darauf hindeutet, dass das Routing-Design einen geringeren Einfluss auf die Endqualität hat als bisher angenommen.

27
RESEARCHarXiv CS.LG·5/7/2026

MP-ISMoE: Mixed-Precision Interactive Side Mixture-of-Experts for Efficient Transfer Learning

Diese Forschung stellt MP-ISMoE vor, ein Mixed-Precision Interactive Side Mixture-of-Experts-Framework, um das parameter-effiziente Transferlernen durch die Reduzierung des Speicheraufwands zu verbessern. Es verwendet ein Schema zur Gaußschen Rausch-gestörten iterativen Quantisierung (GNP-IQ) für die Quantisierung von Gewichten mit geringerer Bittiefe, wodurch Speicher freigegeben wird, um die Lernkapazität und Leistung des Seitennetzwerks zu verbessern.

27
RESEARCHarXiv CS.CL·vor 27T

HEBATRON: A Hebrew-Specialized Open-Weight Mixture-of-Experts Language Model

Hebatron ist ein auf Hebräisch spezialisiertes Open-Weight Large Language Model, das auf NVIDIAs Nemotron-3 Mixture-of-Experts (MoE)-Architektur basiert. Es erreicht einen Hebräisch-Argumentationsdurchschnitt von 73,8 %, übertrifft Konkurrenten und bietet einen deutlich höheren Inferenzdurchsatz durch die Aktivierung weniger Parameter pro Durchlauf.

27
RESEARCHarXiv CS.LG·vor 12T

Tackling Multimodal Learning Challenges with Mixture-of-Expert: A Survey

Dieser Artikel präsentiert eine Umfrage, die Herausforderungen des multimodalen Lernens mit der Mixture-of-Experts (MoE)-Architektur behandelt. Die Studie untersucht, wie MoE als effizienter Motor und Repräsentationslerner zur Integration verschiedener Datenmodalitäten fungiert. Sie schließt eine Lücke in der Literatur, indem sie eine umfassende und systematische Übersicht zu diesem Thema bietet.

27
RESEARCHarXiv CS.LG·5/6/2026

Agentic AI-Based Joint Computing and Networking via Mixture of Experts and Large Language Models

Dieses Papier schlägt ein agentisches, auf künstlicher Intelligenz (KI) basierendes Netzwerkoptimierungs-Framework vor, das Mixture-of-Experts (MoE)-Architekturen mit großen Sprachmodellen (LLMs) integriert. Das LLM fungiert als semantisches Tor, um über Operatorziele zu urteilen und dynamisch geeignete Optimierungsagenten für 6G-Mobilfunknetze zusammenzustellen.

27
DOCHugging Face (YouTube)·4/15/2026

What are Mixture-of-Experts Models | ft. Aritra

Dieser Inhalt erklärt, was Mixture-of-Experts (MoE) Modelle sind, eine neuronale Netzwerkarchitektur, die mehrere 'Experten' kombiniert, um verschiedene Teile der Daten zu verarbeiten. Der Artikel, mit Aritra, beschreibt detailliert, wie diese Modelle funktionieren und ihre Anwendungen im Bereich der künstlichen Intelligenz.

What are Mixture-of-Experts Models | ft. Aritra
27