Model Architecture

13 items

RESEARCHarXiv CS.LG·il y a 1j

WAV: Multi-Resolution Block Residual Routing for Deep Decoder-Only Transformers

L'article présente WAV v1, une méthode légère de routage résiduel multi-résolution pour les Transformers de type décodeur uniquement. Il améliore les connexions résiduelles standard en augmentant chaque bloc avec des bases de détails directionnelles qui contrastent les mises à jour attention et MLP, et les dynamiques des sous-couches précoces et tardives.

Residual Connections neural networks deep learning Model Architecture

ARTICLE↑ trendingReddit r/LocalLLaMA·22/04/2026

Forgive my ignorance but how is a 27B model better than 397B?

Un utilisateur exprime sa confusion sur la manière dont un modèle dense de 27 milliards de paramètres pourrait être meilleur qu'un modèle MoE de 397 milliards, en particulier concernant Qwen, et s'interroge sur l'utilité des experts supplémentaires.

AI models Model Architecture MoE Qwen

Forgive my ignorance but how is a 27B model better than 397B?

NEWS↑ trendingReddit r/LocalLLaMA·07/05/2026

feat: Add Mimo v2.5 model support by AesSedai · Pull Request #22493 · ggml-org/llama.cpp

Le contenu annonce l'ajout du support du modèle MiMo v2.5 dans llama.cpp et décrit son architecture. MiMo v2.5 est un modèle Sparse MoE avec 310 milliards de paramètres totaux et 15 milliards activés, prenant en charge les modalités texte, image, vidéo et audio avec une longueur de contexte impressionnante.

multimodal AI Model Architecture llama.cpp MoE

feat: Add Mimo v2.5 model support by AesSedai · Pull Request #22493 · ggml-org/llama.cpp

ARTICLE↑ trendingReddit r/MachineLearning·26/04/2026

Can Geometric Deep Learning lead eliminate the need of "Brute Force" pre-training [D]

L'auteur se demande si le Deep Learning Géométrique, en intégrant directement les symétries et les invariances dans l'architecture, pourrait réduire ou éliminer le besoin de pré-entraînement "brute force" avec de vastes ensembles de données. Cela suggère que le pré-entraînement massif actuel pourrait être une conséquence du manque d'invariances intégrées dans les architectures.

pre-training Symmetry Model Architecture Geometric Deep Learning

ARTICLE↑ trendingReddit r/LocalLLaMA·11/04/2026

If Dense Models are better for Coding, why are Qwen-Coders MoE?

L'auteur s'interroge sur la décision de Qwen d'utiliser l'architecture Mixture-of-Experts (MoE) pour ses modèles de codage, plutôt que des modèles denses plus précis. Il spécule que ce choix pourrait être lié à la vitesse d'inférence et déplore l'absence d'un successeur 14B.

Model Architecture coding AI MoE AI

RESEARCHarXiv CS.LG·23/04/2026

Expert Upcycling: Shifting the Compute-Efficient Frontier of Mixture-of-Experts

«Expert Upcycling» propose une méthode pour étendre progressivement la capacité des Mixture-of-Experts (MoE) dans les grands modèles de langage pendant le pré-entraînement continu. Cette approche augmente le nombre d'experts par duplication et extension du routeur pour une initialisation à chaud, visant à réduire les coûts d'entraînement tout en conservant le coût d'inférence par jeton.

Model Architecture training-optimization large language models

RESEARCHDEV.to AI·23/04/2026

qwen3.6-27b scores 77.2% on SWE-bench. the dense model is winning against MoE.

Le modèle dense Qwen3.6-27B a surpassé le modèle MoE Qwen3.6-35B-A3B sur SWE-bench, obtenant 77.2% contre 73.4%. Cela suggère que les modèles denses pourraient s'avérer plus efficaces pour les tâches d'ingénierie logicielle réelles.

AI models Model Architecture Benchmarks MoE

ARTICLEDEV.to AI·26/04/2026

DeepSeek V4: Million-Token Context That Actually Works

DeepSeek V4 offre un contexte de 1 million de tokens réellement utilisable, résolvant le problème de mémoire GPU grâce à une architecture d'attention hybride qui compresse le cache KV de près de 9x. Cela en fait une solution pratique pour l'inférence à long contexte, contrairement à de nombreux autres modèles.

DeepSeek AI models Model Architecture large language models

RESEARCHarXiv CS.CL·01/05/2026

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Cet article présente le Length Value Model (LenVM), un nouveau cadre au niveau du token pour modéliser la longueur de génération restante dans les modèles autorégressifs. En formulant la modélisation de la longueur comme un problème d'estimation de valeur, LenVM fournit un signal efficace, sans annotation et évolutif pour les LLM et VLM, améliorant les performances sur les tâches de correspondance exacte de longueur.

deep learning Model Architecture computer vision large language models

RESEARCHarXiv CS.CL·il y a 27j

The Bicameral Model: Bidirectional Hidden-State Coupling Between Parallel Language Models

Le modèle bicaméral couple deux modèles de langage pré-entraînés et figés via une interface neurale entraînable sur leurs états cachés intermédiaires, leur permettant de fonctionner en tandem. Cette méthode permet à un modèle principal de piloter une tâche tandis qu'un modèle auxiliaire utilise des outils ou résout des contraintes, améliorant significativement la précision sur des tâches comme l'arithmétique et les puzzles logiques.

neural networks language models AI models Model Architecture

RESEARCHAI at Meta (YouTube)·08/12/2025

SAM 3: Building a unified model architecture for detection and tracking

SAM 3 se concentre sur la construction d'une architecture de modèle unifiée pour les tâches de détection et de suivi. Il vise à améliorer l'efficacité et la précision dans les applications de vision par ordinateur.

Model Architecture object detection machine learning computer vision

SAM 3: Building a unified model architecture for detection and tracking

ARTICLEAI at Meta (YouTube)·20/11/2025

SAM 3D: Behind the two-model design | AI at Meta

Cet article explore la conception à deux modèles derrière SAM 3D, une initiative d'intelligence artificielle de Meta. Il détaille l'architecture et la logique d'ingénierie de ce système d'IA.

AI models SAM 3D Model Architecture Meta AI

SAM 3D: Behind the two-model design | AI at Meta

NEWSDEV.to AI·il y a 17j

Topology rewrite not bug repair

La réécriture de la topologie d'un système ou modèle d'IA est une reformulation fondamentale, pas seulement une correction de bug. Plus de détails sur ce développement seront partagés à mesure que la construction mûrira.

topology Model Architecture Software Engineering bug fix