Mixture of Experts

22 items

DOC↑ trendingReddit r/LocalLLaMA·vor 27T

AIDC-AI/Ovis2.6-80B-A3B · Hugging Face

Ovis2.6-80B-A3B wird als die neueste Entwicklung in multimodalen großen Sprachmodellen (MLLMs) vorgestellt, die das LLM-Rückgrat auf eine Mixture-of-Experts (MoE)-Architektur aufrüstet, um überlegene multimodale Leistung zu geringeren Betriebskosten zu liefern. Es bringt auch wesentliche Verbesserungen im Langkontext- und Hochauflösungsverständnis, im visuellen Denken und in der Informationsdichten Dokumentenanalyse.

AI models multimodal AI Mixture of Experts large language models

ARTICLE↑ trendingHacker News (AI)·vor 11T

Liquid AI reveals 8B-A1B MoE trained on 38T

Liquid AI hat sein neues 8B-A1B MoE-Modell vorgestellt, das auf 38 Billionen Token trainiert wurde und einen bedeutenden Fortschritt in der Entwicklung von KI-Modellen darstellt. Diese Veröffentlichung zeigt den Fortschritt des Unternehmens bei fortschrittlichen KI-Architekturen.

AI models Mixture of Experts large language models AI development

ARTICLEDEV.to AI·4/11/2026

A Review of Sparse Expert Models in Deep Learning

Dieser Inhalt analysiert Sparse Expert Models im Deep Learning, eine fundamentale Architektur für die Skalierbarkeit und Effizienz großer neuronaler Netze. Die Untersuchung beleuchtet deren Anwendung und Auswirkungen im Bereich der fortgeschrittenen künstlichen Intelligenz.

neural networks deep learning Sparse Models AI Architectures

RESEARCHarXiv CS.AI·5/9/2026

ZAYA1-8B Technical Report

ZAYA1-8B ist ein auf logisches Denken fokussiertes Mixture-of-Experts (MoE)-Modell mit 700 Millionen aktiven Parametern, das DeepSeek-R1-0528 bei Mathematik- und Codierungs-Benchmarks übertrifft. Es wurde von Grund auf für das Denken auf einer AMD-Plattform trainiert und nutzt eine vierstufige RL-Kaskade für das Post-Training.

AI models AI training machine learning Benchmarking

RESEARCHDEV.to AI·vor 25T

Shared expert pool reduces parameters while maintaining performance

Konventionelle Mixture-of-Experts-Designs erhöhen die Parameter linear mit der Tiefe, indem sie jeder Transformer-Schicht eigene private Expertensätze zuweisen. Ein neuer Ansatz, UniPool, ersetzt dies durch einen einzigen, global geteilten Expertenpool, aus dem alle Router schöpfen, wodurch die Gesamtanzahl der Expertenparameter drastisch reduziert wird, während eine vergleichbare Vorhersagequalität erhalten bleibt.

Parameter efficiency Deep learning architecture AI optimization Mixture of Experts

ARTICLEDEV.to AI·5/9/2026

EMO Sparks AI Breakthrough with Pretraining Mixture of Experts

EMO führt emergente Modularität durch ein Mixture of Experts-Verfahren ein, was die KI-Trainingskosten erheblich senkt und die Modellanpassungsfähigkeit verbessert. Dieser Ansatz könnte das maschinelle Lernen neu gestalten, indem er Modelle effizienter und anpassungsfähiger für zukünftige Fortschritte macht.

machine learning EMO Mixture of Experts AI

RESEARCHDEV.to AI·4/17/2026

Qwen3.6-35B-A3B Complete Review: Alibaba's Open-Source Coding Model That Beats Frontier Giants

Qwen3.6-35B-A3B ist Alibabas neues quelloffenes, spärliches Mixture-of-Experts (MoE) Modell, das mit 3 Milliarden aktiven Parametern pro Token hohe Effizienz für die lokale Bereitstellung bietet. Unter Apache 2.0 veröffentlicht, übertrifft es dichte Modelle mit 27 Milliarden Parametern und konkurriert auf Code-Benchmarks mit führenden Giganten.

open-source AI Benchmarking coding AI Mixture of Experts

RESEARCHarXiv CS.LG·4/17/2026

Awakening Dormant Experts:Counterfactual Routing to Mitigate MoE Hallucinations

MoE-Modelle neigen zu Halluzinationen, insbesondere bei Long-Tail-Wissen, da statisches Top-k-Routing Spezialistenexperten unterpriorisiert. Counterfactual Routing (CoR) wird als trainingsfreies Inferenz-Framework vorgeschlagen, das mittels Störungsanalyse und CEI Rechenressourcen dynamisch verschiebt und so schlafende Experten aktiviert.

neural networks AI hallucinations deep learning Mixture of Experts

NEWSDEV.to AI·vor 18T

Qwen3-Coder-Next: 80B total, 3B active, 70.6 on SWE-Bench

Qwen3-Coder-Next ist ein spärliches Mixture-of-Experts (MoE)-Modell mit 80B Gesamt- und 3B aktiven Parametern, das einen Score von 70.6 auf SWE-Bench Verified erreicht. Es verfügt über einen hybriden Aufmerksamkeitsmechanismus und Apache 2.0-Gewichte, eine für das Codieren optimierte Variante.

Benchmarking code generation Mixture of Experts large language models

ARTICLEDEV.to AI·vor 15T

GLM-4: The Chinese-English Bilingual Workhorse You Didn't Know You Needed

GLM-4 ist ein chinesisch-englisches zweisprachiges KI-Modell der Tsinghua University / Zhipu AI, das im Gegensatz zu den meisten englischzentrierten Modellen von Grund auf für beide Sprachen optimiert wurde. Es verfügt über eine Mixture-of-Experts-Architektur für schnelle Inferenz, einen langen Kontext von bis zu 128.000 Tokens und konzentriert sich auf Funktionsaufrufe und Agenten-Workflows.

bilingual AI Function Calling natural language processing Mixture of Experts

RESEARCHHugging Face Blog·5/8/2026

EMO: Pretraining mixture of experts for emergent modularity

EMO schlägt einen Vortrainingsansatz für Mixture of Experts (MoE)-Modelle vor, der darauf abzielt, emergente Modularität zu erreichen. Diese Methode konzentriert sich auf die Entwicklung spezialisierter Komponenten innerhalb des Modells während der Vortrainingsphase.

Emergent Modularity AI models pretraining machine learning

RESEARCHarXiv CS.LG·4/6/2026

LiME: Lightweight Mixture of Experts for Efficient Multimodal Multi-task Learning

O LiME (Lightweight Mixture of Experts) propõe uma nova abordagem para MoE-PEFT, utilizando modulação leve de um único módulo PEFT compartilhado em vez de adaptadores separados por especialista. Isso reduz significativamente os parâmetros, introduz roteamento de parâmetros zero e generaliza para qualquer método PEFT, superando as limitações de escalabilidade e aplicabilidade.

multi-task learning model efficiency Deep Learning Architectures Mixture of Experts

RESEARCHarXiv CS.LG·vor 19T

CP-MoE: Consistency-Preserving Mixture-of-Experts for Continual Learning

CP-MoE begegnet dem katastrophalen Vergessen im kontinuierlichen Lernen für LLMs und VLMs mittels Mixture-of-Experts-Architekturen. Es führt einen transienten Experten und konsistenzerhaltendes Routing ein, um neues Wissen zu integrieren und das Überschreiben bestehender Parameter zu verhindern.

LLMs VLMs learning Mixture of Experts

RESEARCHarXiv CS.AI·4/17/2026

Equifinality in Mixture of Experts: Routing Topology Does Not Determine Language Modeling Quality

Diese Arbeit untersucht, ob die Routing-Topologie tatsächlich die Qualität der Sprachmodellierung in Mixture-of-Experts (MoE)-Architekturen bestimmt. Die Autoren fanden, dass verschiedene Routing-Varianten, einschließlich einer neuartigen auf Kosinus-Ähnlichkeit basierenden, zu statistisch äquivalenter asymptotischer Perplexität führen, was darauf hindeutet, dass das Routing-Design einen geringeren Einfluss auf die Endqualität hat als bisher angenommen.

neural networks routing algorithms Mixture of Experts Language modeling

RESEARCHarXiv CS.LG·5/7/2026

MP-ISMoE: Mixed-Precision Interactive Side Mixture-of-Experts for Efficient Transfer Learning

Diese Forschung stellt MP-ISMoE vor, ein Mixed-Precision Interactive Side Mixture-of-Experts-Framework, um das parameter-effiziente Transferlernen durch die Reduzierung des Speicheraufwands zu verbessern. Es verwendet ein Schema zur Gaußschen Rausch-gestörten iterativen Quantisierung (GNP-IQ) für die Quantisierung von Gewichten mit geringerer Bittiefe, wodurch Speicher freigegeben wird, um die Lernkapazität und Leistung des Seitennetzwerks zu verbessern.

model efficiency learning Transfer Learning quantization

RESEARCHarXiv CS.CL·vor 27T

HEBATRON: A Hebrew-Specialized Open-Weight Mixture-of-Experts Language Model

Hebatron ist ein auf Hebräisch spezialisiertes Open-Weight Large Language Model, das auf NVIDIAs Nemotron-3 Mixture-of-Experts (MoE)-Architektur basiert. Es erreicht einen Hebräisch-Argumentationsdurchschnitt von 73,8 %, übertrifft Konkurrenten und bietet einen deutlich höheren Inferenzdurchsatz durch die Aktivierung weniger Parameter pro Durchlauf.

language models NVIDIA AI Hebrew AI Mixture of Experts

RESEARCHarXiv CS.LG·vor 12T

Tackling Multimodal Learning Challenges with Mixture-of-Expert: A Survey

Dieser Artikel präsentiert eine Umfrage, die Herausforderungen des multimodalen Lernens mit der Mixture-of-Experts (MoE)-Architektur behandelt. Die Studie untersucht, wie MoE als effizienter Motor und Repräsentationslerner zur Integration verschiedener Datenmodalitäten fungiert. Sie schließt eine Lücke in der Literatur, indem sie eine umfassende und systematische Übersicht zu diesem Thema bietet.

multimodal learning Survey Mixture of Experts AI

ARTICLEDEV.to AI·4/14/2026

MiniMax M2 on OpenClaw: Setup, Pricing, and Performance...

Der Artikel beschreibt die M2-Familie von großen Sprachmodellen von MiniMax, die eine Mixture-of-Experts-Architektur für hohe Leistung bei geringen Inferenzkosten nutzt. Das M2.7-Modell erreicht 90 % der Qualität eines Spitzenmodells zu 7 % der Kosten, mit Benchmark-Ergebnissen, die mit Claude Sonnet 4 vergleichbar sind.

OpenClaw AI performance Mixture of Experts MiniMax M2

RESEARCHarXiv CS.LG·5/6/2026

Agentic AI-Based Joint Computing and Networking via Mixture of Experts and Large Language Models

Dieses Papier schlägt ein agentisches, auf künstlicher Intelligenz (KI) basierendes Netzwerkoptimierungs-Framework vor, das Mixture-of-Experts (MoE)-Architekturen mit großen Sprachmodellen (LLMs) integriert. Das LLM fungiert als semantisches Tor, um über Operatorziele zu urteilen und dynamisch geeignete Optimierungsagenten für 6G-Mobilfunknetze zusammenzustellen.

Network Optimization 6G Networks Agentic AI Mixture of Experts

DOCHugging Face (YouTube)·4/15/2026

What are Mixture-of-Experts Models | ft. Aritra

Dieser Inhalt erklärt, was Mixture-of-Experts (MoE) Modelle sind, eine neuronale Netzwerkarchitektur, die mehrere 'Experten' kombiniert, um verschiedene Teile der Daten zu verarbeiten. Der Artikel, mit Aritra, beschreibt detailliert, wie diese Modelle funktionieren und ihre Anwendungen im Bereich der künstlichen Intelligenz.

AI models machine learning Mixture of Experts

What are Mixture-of-Experts Models | ft. Aritra