Model Architecture

13 items

RESEARCHarXiv CS.LG·vor 1T

WAV: Multi-Resolution Block Residual Routing for Deep Decoder-Only Transformers

Der Artikel stellt WAV v1 vor, eine leichte Multi-Resolution-Residual-Routing-Methode für Decoder-Only-Transformatoren. Sie verbessert Standard-Residual-Verbindungen, indem sie jeden Block mit direktionalen Detailbasen erweitert, die Aufmerksamkeits- und MLP-Updates sowie frühe und späte Sublayer-Dynamiken kontrastieren.

Residual Connections neural networks deep learning Model Architecture

ARTICLE↑ trendingReddit r/LocalLLaMA·4/22/2026

Forgive my ignorance but how is a 27B model better than 397B?

Ein Nutzer drückt seine Verwirrung darüber aus, wie ein 27B dichtes Modell besser sein kann als ein 397B MoE-Modell, insbesondere in Bezug auf Qwen, und hinterfragt den Nutzen der zusätzlichen Experten.

AI models Model Architecture MoE Qwen

Forgive my ignorance but how is a 27B model better than 397B?

NEWS↑ trendingReddit r/LocalLLaMA·5/7/2026

feat: Add Mimo v2.5 model support by AesSedai · Pull Request #22493 · ggml-org/llama.cpp

Der Inhalt kündigt die Unterstützung des MiMo v2.5-Modells in llama.cpp an und beschreibt dessen Architektur. MiMo v2.5 ist ein Sparse MoE-Modell mit insgesamt 310 Milliarden und 15 Milliarden aktivierten Parametern, das Text-, Bild-, Video- und Audio-Modalitäten mit einer beeindruckenden Kontextlänge unterstützt.

multimodal AI Model Architecture llama.cpp MoE

feat: Add Mimo v2.5 model support by AesSedai · Pull Request #22493 · ggml-org/llama.cpp

ARTICLE↑ trendingReddit r/MachineLearning·4/26/2026

Can Geometric Deep Learning lead eliminate the need of "Brute Force" pre-training [D]

Der Autor fragt sich, ob Geometrisches Deep Learning, indem es Symmetrien und Invarianzen direkt in die Architektur integriert, den Bedarf an extensivem „Brute-Force“-Vortraining mit riesigen Datensätzen reduzieren oder eliminieren könnte. Dies wirft die Frage auf, ob das derzeitige massive Vortraining hauptsächlich auf Architekturmängel ohne inhärente Invarianz zurückzuführen ist.

pre-training Symmetry Model Architecture Geometric Deep Learning

ARTICLE↑ trendingReddit r/LocalLLaMA·4/11/2026

If Dense Models are better for Coding, why are Qwen-Coders MoE?

Der Autor hinterfragt Qwens Entscheidung, die Mixture-of-Experts (MoE)-Architektur anstelle präziserer dichter Modelle für seine Codierungsmodelle zu nutzen. Er spekuliert, die Wahl könnte mit der Inferenzgeschwindigkeit zusammenhängen, und bedauert das Fehlen eines 14B-Nachfolgers.

Model Architecture coding AI MoE AI

RESEARCHarXiv CS.LG·4/23/2026

Expert Upcycling: Shifting the Compute-Efficient Frontier of Mixture-of-Experts

„Expert Upcycling“ schlägt eine Methode zur schrittweisen Erweiterung der Mixture-of-Experts (MoE)-Kapazität in großen Sprachmodellen während des kontinuierlichen Vortrainings vor. Sie erhöht die Anzahl der Experten durch Duplizierung und Router-Erweiterung für eine warme Initialisierung, um Trainingskosten zu senken und die Inferenzkosten pro Token beizubehalten.

Model Architecture training-optimization large language models

RESEARCHDEV.to AI·4/23/2026

qwen3.6-27b scores 77.2% on SWE-bench. the dense model is winning against MoE.

Das dichte Modell Qwen3.6-27B übertraf das Qwen3.6-35B-A3B MoE-Modell auf SWE-bench mit 77.2% gegenüber 73.4%. Dies deutet darauf hin, dass dichte Modelle für reale Softwareentwicklungsaufgaben effektiver sein könnten.

AI models Model Architecture Benchmarks MoE

ARTICLEDEV.to AI·4/26/2026

DeepSeek V4: Million-Token Context That Actually Works

DeepSeek V4 bietet einen tatsächlich nutzbaren Kontext von 1 Million Token, indem es das GPU-Speicherproblem mit einer hybriden Aufmerksamkeitsarchitektur löst, die den KV-Cache um fast das Neunfache komprimiert. Dies macht es im Gegensatz zu vielen anderen Modellen zu einer praktischen Lösung für die Langkontext-Inferenz.

DeepSeek AI models Model Architecture large language models

RESEARCHarXiv CS.CL·5/1/2026

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Dieses Papier stellt das Length Value Model (LenVM) vor, ein neuartiges Token-Level-Framework zur Modellierung der verbleibenden Generierungslänge in autoregressiven Modellen. Durch die Formulierung der Längenmodellierung als Wertschätzungsproblem liefert LenVM ein annotationsfreies, skalierbares und effektives Signal für LLMs und VLMs, das die Leistung bei Aufgaben mit exakter Längenübereinstimmung verbessert.

deep learning Model Architecture computer vision large language models

RESEARCHarXiv CS.CL·vor 27T

The Bicameral Model: Bidirectional Hidden-State Coupling Between Parallel Language Models

Das bikamerale Modell koppelt zwei eingefrorene, vortrainierte Sprachmodelle über eine trainierbare neuronale Schnittstelle in ihren Zwischen-Hidden-States, wodurch sie synchron arbeiten können. Diese Methode ermöglicht es einem primären Modell, eine Aufgabe zu steuern, während ein Hilfsmodell Tools verwendet oder Einschränkungen löst, was die Genauigkeit bei Aufgaben wie Arithmetik und Logikrätseln erheblich verbessert.

neural networks language models AI models Model Architecture

RESEARCHAI at Meta (YouTube)·12/8/2025

SAM 3: Building a unified model architecture for detection and tracking

SAM 3 konzentriert sich auf den Aufbau einer vereinheitlichten Modellarchitektur für Erkennungs- und Tracking-Aufgaben. Ziel ist es, die Effizienz und Genauigkeit in Computer-Vision-Anwendungen zu verbessern.

Model Architecture object detection machine learning computer vision

SAM 3: Building a unified model architecture for detection and tracking

ARTICLEAI at Meta (YouTube)·11/20/2025

SAM 3D: Behind the two-model design | AI at Meta

Dieser Artikel untersucht das Zwei-Modell-Design hinter SAM 3D, einer KI-Initiative von Meta. Er beschreibt die Architektur und die technische Logik dieses KI-Systems.

AI models SAM 3D Model Architecture Meta AI

SAM 3D: Behind the two-model design | AI at Meta

NEWSDEV.to AI·vor 17T

Topology rewrite not bug repair

Die Topologie-Neuschreibung eines KI-Systems oder -Modells ist eine grundlegende Neuformulierung, nicht nur eine Fehlerbehebung. Weitere Details zu dieser Entwicklung werden bekannt gegeben, sobald der Build reift.

topology Model Architecture Software Engineering bug fix