← heapsort-ai

Model Architecture

13 items

RESEARCHarXiv CS.LG·il y a 1j

WAV: Multi-Resolution Block Residual Routing for Deep Decoder-Only Transformers

L'article présente WAV v1, une méthode légère de routage résiduel multi-résolution pour les Transformers de type décodeur uniquement. Il améliore les connexions résiduelles standard en augmentant chaque bloc avec des bases de détails directionnelles qui contrastent les mises à jour attention et MLP, et les dynamiques des sous-couches précoces et tardives.

60
ARTICLE↑ trendingReddit r/MachineLearning·26/04/2026

Can Geometric Deep Learning lead eliminate the need of "Brute Force" pre-training [D]

L'auteur se demande si le Deep Learning Géométrique, en intégrant directement les symétries et les invariances dans l'architecture, pourrait réduire ou éliminer le besoin de pré-entraînement "brute force" avec de vastes ensembles de données. Cela suggère que le pré-entraînement massif actuel pourrait être une conséquence du manque d'invariances intégrées dans les architectures.

42
RESEARCHarXiv CS.LG·23/04/2026

Expert Upcycling: Shifting the Compute-Efficient Frontier of Mixture-of-Experts

«Expert Upcycling» propose une méthode pour étendre progressivement la capacité des Mixture-of-Experts (MoE) dans les grands modèles de langage pendant le pré-entraînement continu. Cette approche augmente le nombre d'experts par duplication et extension du routeur pour une initialisation à chaud, visant à réduire les coûts d'entraînement tout en conservant le coût d'inférence par jeton.

28
RESEARCHarXiv CS.CL·01/05/2026

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Cet article présente le Length Value Model (LenVM), un nouveau cadre au niveau du token pour modéliser la longueur de génération restante dans les modèles autorégressifs. En formulant la modélisation de la longueur comme un problème d'estimation de valeur, LenVM fournit un signal efficace, sans annotation et évolutif pour les LLM et VLM, améliorant les performances sur les tâches de correspondance exacte de longueur.

27
RESEARCHarXiv CS.CL·il y a 27j

The Bicameral Model: Bidirectional Hidden-State Coupling Between Parallel Language Models

Le modèle bicaméral couple deux modèles de langage pré-entraînés et figés via une interface neurale entraînable sur leurs états cachés intermédiaires, leur permettant de fonctionner en tandem. Cette méthode permet à un modèle principal de piloter une tâche tandis qu'un modèle auxiliaire utilise des outils ou résout des contraintes, améliorant significativement la précision sur des tâches comme l'arithmétique et les puzzles logiques.

27