Transformers

56 items

RESEARCHarXiv CS.LG·il y a 1j

WAV: Multi-Resolution Block Residual Routing for Deep Decoder-Only Transformers

L'article présente WAV v1, une méthode légère de routage résiduel multi-résolution pour les Transformers de type décodeur uniquement. Il améliore les connexions résiduelles standard en augmentant chaque bloc avec des bases de détails directionnelles qui contrastent les mises à jour attention et MLP, et les dynamiques des sous-couches précoces et tardives.

Residual Connections neural networks deep learning Model Architecture

RESEARCH↑ trendingReddit r/MachineLearning·il y a 27j

Trained transformer-based chess models to play like humans (including thinking time) [P]

Un développeur a entraîné des modèles de deep learning basés sur des transformateurs pour jouer aux échecs comme des humains dans diverses catégories de classement, y compris la prédiction du temps de réflexion. Les modèles ont été entraînés avec des données Lichess et ont atteint une précision comparable à MAIA-3, malgré leur petite taille.

AI models deep learning chess AI model training

ARTICLE↑ trendingReddit r/MachineLearning·24/04/2026

Nanochat vs Llama for training from scratch? [P]

L'utilisateur entraîne un modèle d'IA à partir de zéro et demande conseil sur la meilleure architecture, envisageant de passer de Nanochat (qui manque de compatibilité Transformers) à l'architecture Llama. L'objectif est un projet open source avec un nouvel ensemble de données plus grand, malgré les avantages de Nanochat.

AI architecture open-source AI AI training LLM

RESEARCH↑ trendingReddit r/MachineLearning·04/05/2026

Why SSMs struggle in parameter-constrained training: empirical findings at 25M parameters [R]

Cette publication détaille les découvertes empiriques de la compétition Parameter Golf d'OpenAI, expliquant pourquoi les Modèles d'Espace d'État (SSMs) sont structurellement désavantagés par rapport aux transformeurs dans les régimes d'entraînement contraints par les paramètres et le temps. Les problèmes incluent une moins bonne compression des poids in_proj des SSM et des inversions de gains architecturaux à des tailles de vocabulaire plus grandes, ainsi que des aperçus d'expériences sur les noyaux Triton Mamba-3.

SSMs AI models Performance optimization Neural network training

RESEARCH↑ trendingReddit r/MachineLearning·16/04/2026

ResBM: a new transformer-based architecture for low-bandwidth pipeline-parallel training, achieving 128× activation compression [R]

Macrocosmos a présenté ResBM, une nouvelle architecture de transformateur conçue pour l'entraînement parallèle en pipeline à faible bande passante. Elle permet une compression d'activation de 128x sans perte significative de convergence.

distributed training machine learning architecture model optimization Transformers

RESEARCH↑ trendingReddit r/MachineLearning·06/05/2026

Transformers with Selective Access to Early Representations [R]

L'article présente SATFormer, une nouvelle variante de Transformer qui améliore l'efficacité en permettant aux "heads" de réaccéder sélectivement aux représentations précoces au lieu de les copier uniformément. Ce mécanisme de "gating" dépendant du contexte optimise la réutilisation de l'information, offrant un meilleur compromis efficacité-performance.

AI architecture deep learning efficiency Transformers

Transformers with Selective Access to Early Representations [R]

RESEARCH↑ trendingReddit r/MachineLearning·13/04/2026

Thinking Deeper, Not Longer: Depth-Recurrent Transformers for Compositional Generalization [R]

Ce contenu discute d'un article de recherche sur les Transformers Récurents en Profondeur, soulignant ses découvertes sur la généralisation compositionnelle et hors distribution. Il explore comment la supervision des étapes intermédiaires peut nuire au raisonnement authentique des modèles d'IA, les rendant excessivement dépendants des heuristiques statistiques, un concept étendu aux modèles fondamentaux et à l'intuition humaine.

OOD Generalization Compositional Generalization AI Reasoning Intermediate Supervision

ARTICLE↑ trendingReddit r/MachineLearning·25/04/2026

How Visual-Language-Action (VLA) Models Work [D]

Cet article fournit une explication technique détaillée du fonctionnement des modèles Visuel-Langage-Action (VLA), décrivant comment ils traduisent les entrées visuelles et linguistiques en actions robotiques. Il explore les principales approches de décodage d'actions telles que les actions autorégressives tokenisées, les têtes d'action basées sur la diffusion et les politiques de correspondance de flux.

machine learning embodied AI VLA models robotics

How Visual-Language-Action (VLA) Models Work [D]

ARTICLE↑ trendingReddit r/LocalLLaMA·01/05/2026

By when do you think will TurboQuant get a proper release and be adopted by everyone

L'utilisateur s'interroge sur la date de sortie et l'adoption généralisée de TurboQuant, soulignant les gains de performance considérables obtenus avec une configuration asymétrique pour K et V. La discussion concerne une optimisation technique dans les modèles d'IA.

AI models machine learning Transformers

RESEARCHarXiv CS.LG·il y a 5j

Do Transformers Need Three Projections? Systematic Study of QKV Variants

Cette recherche évalue systématiquement des variantes de la formulation d'attention QKV (Query, Key, Value) dans les Transformers, incluant le partage des projections clé-valeur, query-clé et unique. Des expériences sur des tâches synthétiques, de vision et de modélisation linguistique montrent que ces formulations alternatives sont aussi performantes, voire parfois meilleures, que les Transformers QKV standards, avec un partage Q-K=V réduisant significativement le cache KV en modélisation linguistique.

QKV computer vision attention mechanisms Language modeling

RESEARCHarXiv CS.LG·22/04/2026

Handling and Interpreting Missing Modalities in Patient Clinical Trajectories via Autoregressive Sequence Modeling

Ce travail aborde le défi des modalités manquantes dans les données cliniques multimodales pour le diagnostic, le reformulant comme une tâche de modélisation de séquence autorégressive. Il utilise des décodeurs causaux de LLMs et un pré-entraînement contrastif tenant compte des données manquantes pour surpasser les bases de référence sur des benchmarks comme MIMIC-IV et eICU.

multimodal AI machine learning large language models healthcare AI

RESEARCHarXiv CS.LG·15/04/2026

Subcritical Signal Propagation at Initialization in Normalization-Free Transformers

Cet article étudie la propagation du signal à l'initialisation des transformateurs en utilisant la norme jacobienne partielle moyennée (APJN) pour mesurer l'amplification du gradient. La théorie prédit comment l'attention modifie le comportement asymptotique de l'APJN à grande profondeur et explique la sous-criticité des architectures sans normalisation comme les transformateurs Dynamic Tanh et Dynamic erf.

Normalization-Free Transformers Gradient Amplification Signal Propagation Initialization

RESEARCHarXiv CS.LG·28/04/2026

Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

Ce travail s'attaque à l'empreinte mémoire importante du caching Key-Value (KV) dans les modèles de transformateur, proposant une optimisation via la dimension de profondeur. Il introduit une méthode de partage de cache inter-couches, montrant que la suppression du cache d'une couche peut être efficace sans perte d'information, et suggère une approche d'entraînement avec attention croisée aléatoire.

deep learning Memory Optimization large language models Transformers

RESEARCHarXiv CS.LG·28/04/2026

The Spectral Lifecycle of Transformer Training: Transient Compression Waves, Persistent Spectral Gradients, and the Q/K--V Asymmetry

Cette étude systématique des spectres de valeurs singulières lors du pré-entraînement des transformateurs révèle trois phénomènes clés : des ondes de compression transitoires et des gradients spectraux persistants. Elle identifie également une asymétrie fonctionnelle Q/K-V, où les projections de requête/clé dictent la dynamique dépendante de la profondeur.

neural networks deep learning Model Analysis training dynamics

RESEARCHarXiv CS.LG·il y a 8j

When LLMs Learn to Be Consistently Wrong: A Multi-Model Study of Linear Representations of Synthetic Deception

Cet article explore "l'alignement trompeur" dans les LLM, un défi majeur pour la sécurité de l'IA où les modèles produisent délibérément de fausses sorties tout en conservant des représentations internes précises. Les chercheurs ont introduit un paradigme multi-modèle, détectant avec succès la malhonnêteté synthétique avec une grande précision à l'aide de sondes linéaires à travers diverses architectures de transformateurs.

LLMs machine learning deception AI safety

RESEARCHarXiv CS.LG·06/05/2026

eOptShrinkQ: Near-Lossless KV Cache Compression Through Optimal Spectral Denoising and Quantization

eOptShrinkQ est un pipeline de compression en deux étapes pour le cache KV dans les têtes d'attention des transformateurs. Il utilise le rétrécissement optimal des valeurs singulières et la quantification scalaire par vecteur, basée sur la théorie des matrices aléatoires, pour obtenir une compression quasi sans perte et améliorer la reconstruction.

quantization Random matrix theory AI compression KV cache

ARTICLEDEV.to AI·il y a 28j

Multi-Head Attention: Collaborate Instead of Concatenate

Ce contenu explore le mécanisme d'attention multi-têtes dans les modèles d'IA, en se concentrant sur l'idée de collaboration au lieu de concaténation. Il discute probablement d'une approche alternative pour améliorer l'efficacité ou la performance de l'attention.

deep learning Attention Mechanism machine learning AI

RESEARCHarXiv CS.LG·14/04/2026

The Diffusion-Attention Connection

Cette recherche unifie les Transformers, les cartes de diffusion et les Laplaciens magnétiques, les présentant comme différents régimes d'une géométrie de Markov unique. Elle définit une "bidivergence" QK pour relier l'attention et la diffusion, et organise leurs dynamiques avec le produit d'experts et les ponts de Schrödinger.

Diffusion Models Deep Learning Theory Markov Geometry attention mechanisms

DOCDEV.to AI·17/04/2026

Understanding Transformers Part 9: Stacking Self-Attention Layers

Cet article explique pourquoi les valeurs d'auto-attention remplacent les encodages positionnels originaux, car elles intègrent des informations contextuelles de tous les mots, clarifiant les relations. Il introduit ensuite l'empilement de plusieurs couches d'auto-attention, chacune avec des poids uniques, pour capturer des relations linguistiques plus complexes au sein des phrases et des paragraphes.

neural networks Self-Attention deep learning NLP

ARTICLEDEV.to AI·il y a 29j

How Large Language Models Work — From Transformers to Conversational AI

Les Grands Modèles de Langage (LLM) fonctionnent comme des réseaux neuronaux qui apprennent des modèles dans le texte pour générer du contenu, en prédisant le jeton suivant. Cette puissante fonctionnalité est alimentée par des données massives, des architectures profondes et l'attention basée sur les Transformers.

AI Generative AI LLM Transformers