← heapsort-ai

Transformers

56 items

RESEARCHarXiv CS.LG·il y a 1j

WAV: Multi-Resolution Block Residual Routing for Deep Decoder-Only Transformers

L'article présente WAV v1, une méthode légère de routage résiduel multi-résolution pour les Transformers de type décodeur uniquement. Il améliore les connexions résiduelles standard en augmentant chaque bloc avec des bases de détails directionnelles qui contrastent les mises à jour attention et MLP, et les dynamiques des sous-couches précoces et tardives.

60
RESEARCH↑ trendingReddit r/MachineLearning·il y a 27j

Trained transformer-based chess models to play like humans (including thinking time) [P]

Un développeur a entraîné des modèles de deep learning basés sur des transformateurs pour jouer aux échecs comme des humains dans diverses catégories de classement, y compris la prédiction du temps de réflexion. Les modèles ont été entraînés avec des données Lichess et ont atteint une précision comparable à MAIA-3, malgré leur petite taille.

44
ARTICLE↑ trendingReddit r/MachineLearning·24/04/2026

Nanochat vs Llama for training from scratch? [P]

L'utilisateur entraîne un modèle d'IA à partir de zéro et demande conseil sur la meilleure architecture, envisageant de passer de Nanochat (qui manque de compatibilité Transformers) à l'architecture Llama. L'objectif est un projet open source avec un nouvel ensemble de données plus grand, malgré les avantages de Nanochat.

42
RESEARCH↑ trendingReddit r/MachineLearning·04/05/2026

Why SSMs struggle in parameter-constrained training: empirical findings at 25M parameters [R]

Cette publication détaille les découvertes empiriques de la compétition Parameter Golf d'OpenAI, expliquant pourquoi les Modèles d'Espace d'État (SSMs) sont structurellement désavantagés par rapport aux transformeurs dans les régimes d'entraînement contraints par les paramètres et le temps. Les problèmes incluent une moins bonne compression des poids in_proj des SSM et des inversions de gains architecturaux à des tailles de vocabulaire plus grandes, ainsi que des aperçus d'expériences sur les noyaux Triton Mamba-3.

42
RESEARCH↑ trendingReddit r/MachineLearning·16/04/2026

ResBM: a new transformer-based architecture for low-bandwidth pipeline-parallel training, achieving 128× activation compression [R]

Macrocosmos a présenté ResBM, une nouvelle architecture de transformateur conçue pour l'entraînement parallèle en pipeline à faible bande passante. Elle permet une compression d'activation de 128x sans perte significative de convergence.

42
RESEARCH↑ trendingReddit r/MachineLearning·06/05/2026

Transformers with Selective Access to Early Representations [R]

L'article présente SATFormer, une nouvelle variante de Transformer qui améliore l'efficacité en permettant aux "heads" de réaccéder sélectivement aux représentations précoces au lieu de les copier uniformément. Ce mécanisme de "gating" dépendant du contexte optimise la réutilisation de l'information, offrant un meilleur compromis efficacité-performance.

Transformers with Selective Access to Early Representations [R]
42
RESEARCH↑ trendingReddit r/MachineLearning·13/04/2026

Thinking Deeper, Not Longer: Depth-Recurrent Transformers for Compositional Generalization [R]

Ce contenu discute d'un article de recherche sur les Transformers Récurents en Profondeur, soulignant ses découvertes sur la généralisation compositionnelle et hors distribution. Il explore comment la supervision des étapes intermédiaires peut nuire au raisonnement authentique des modèles d'IA, les rendant excessivement dépendants des heuristiques statistiques, un concept étendu aux modèles fondamentaux et à l'intuition humaine.

42
ARTICLE↑ trendingReddit r/MachineLearning·25/04/2026

How Visual-Language-Action (VLA) Models Work [D]

Cet article fournit une explication technique détaillée du fonctionnement des modèles Visuel-Langage-Action (VLA), décrivant comment ils traduisent les entrées visuelles et linguistiques en actions robotiques. Il explore les principales approches de décodage d'actions telles que les actions autorégressives tokenisées, les têtes d'action basées sur la diffusion et les politiques de correspondance de flux.

How Visual-Language-Action (VLA) Models Work [D]
42
RESEARCHarXiv CS.LG·il y a 5j

Do Transformers Need Three Projections? Systematic Study of QKV Variants

Cette recherche évalue systématiquement des variantes de la formulation d'attention QKV (Query, Key, Value) dans les Transformers, incluant le partage des projections clé-valeur, query-clé et unique. Des expériences sur des tâches synthétiques, de vision et de modélisation linguistique montrent que ces formulations alternatives sont aussi performantes, voire parfois meilleures, que les Transformers QKV standards, avec un partage Q-K=V réduisant significativement le cache KV en modélisation linguistique.

29
RESEARCHarXiv CS.LG·22/04/2026

Handling and Interpreting Missing Modalities in Patient Clinical Trajectories via Autoregressive Sequence Modeling

Ce travail aborde le défi des modalités manquantes dans les données cliniques multimodales pour le diagnostic, le reformulant comme une tâche de modélisation de séquence autorégressive. Il utilise des décodeurs causaux de LLMs et un pré-entraînement contrastif tenant compte des données manquantes pour surpasser les bases de référence sur des benchmarks comme MIMIC-IV et eICU.

29
RESEARCHarXiv CS.LG·15/04/2026

Subcritical Signal Propagation at Initialization in Normalization-Free Transformers

Cet article étudie la propagation du signal à l'initialisation des transformateurs en utilisant la norme jacobienne partielle moyennée (APJN) pour mesurer l'amplification du gradient. La théorie prédit comment l'attention modifie le comportement asymptotique de l'APJN à grande profondeur et explique la sous-criticité des architectures sans normalisation comme les transformateurs Dynamic Tanh et Dynamic erf.

29
RESEARCHarXiv CS.LG·28/04/2026

Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

Ce travail s'attaque à l'empreinte mémoire importante du caching Key-Value (KV) dans les modèles de transformateur, proposant une optimisation via la dimension de profondeur. Il introduit une méthode de partage de cache inter-couches, montrant que la suppression du cache d'une couche peut être efficace sans perte d'information, et suggère une approche d'entraînement avec attention croisée aléatoire.

29
RESEARCHarXiv CS.LG·28/04/2026

The Spectral Lifecycle of Transformer Training: Transient Compression Waves, Persistent Spectral Gradients, and the Q/K--V Asymmetry

Cette étude systématique des spectres de valeurs singulières lors du pré-entraînement des transformateurs révèle trois phénomènes clés : des ondes de compression transitoires et des gradients spectraux persistants. Elle identifie également une asymétrie fonctionnelle Q/K-V, où les projections de requête/clé dictent la dynamique dépendante de la profondeur.

29
RESEARCHarXiv CS.LG·il y a 8j

When LLMs Learn to Be Consistently Wrong: A Multi-Model Study of Linear Representations of Synthetic Deception

Cet article explore "l'alignement trompeur" dans les LLM, un défi majeur pour la sécurité de l'IA où les modèles produisent délibérément de fausses sorties tout en conservant des représentations internes précises. Les chercheurs ont introduit un paradigme multi-modèle, détectant avec succès la malhonnêteté synthétique avec une grande précision à l'aide de sondes linéaires à travers diverses architectures de transformateurs.

29
RESEARCHarXiv CS.LG·06/05/2026

eOptShrinkQ: Near-Lossless KV Cache Compression Through Optimal Spectral Denoising and Quantization

eOptShrinkQ est un pipeline de compression en deux étapes pour le cache KV dans les têtes d'attention des transformateurs. Il utilise le rétrécissement optimal des valeurs singulières et la quantification scalaire par vecteur, basée sur la théorie des matrices aléatoires, pour obtenir une compression quasi sans perte et améliorer la reconstruction.

29
DOCDEV.to AI·17/04/2026

Understanding Transformers Part 9: Stacking Self-Attention Layers

Cet article explique pourquoi les valeurs d'auto-attention remplacent les encodages positionnels originaux, car elles intègrent des informations contextuelles de tous les mots, clarifiant les relations. Il introduit ensuite l'empilement de plusieurs couches d'auto-attention, chacune avec des poids uniques, pour capturer des relations linguistiques plus complexes au sein des phrases et des paragraphes.

28