Transformers

56 items

RESEARCHarXiv CS.LG·06/04/2026

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models

Este trabalho explora o agendamento de modelos para acelerar os Modelos de Linguagem de Difusão Mascarada (MDLMs), substituindo o modelo completo por um menor em certas etapas de denoising. A pesquisa mostra que as etapas iniciais e finais são mais robustas a essa substituição, permitindo uma redução de até 17% nos FLOPs com degradação mínima na perplexidade generativa.

Diffusion Models language models Computational Efficiency denoising

RESEARCHarXiv CS.LG·il y a 7j

DAStatFormer: A Hybrid Multibranch Transformer with Statistical Feature Integration for DAS-Based Pattern Recognitions

Le DAStatFormer est un transformateur hybride multi-branches proposé pour surmonter les défis de la grande dimensionnalité et des motifs spatio-temporels complexes en détection acoustique distribuée (DAS). Il intègre des caractéristiques statistiques compactes de plusieurs domaines, réduisant considérablement la taille des données et améliorant la classification des événements.

deep learning machine learning pattern recognition distributed acoustic sensing

RESEARCHarXiv CS.LG·20/04/2026

The Illusion of Equivalence: Systematic FP16 Divergence in KV-Cached Autoregressive Inference

Cette recherche révèle que le cache KV dans l'inférence autorégressive des transformateurs, sous la précision FP16 standard, provoque une divergence systématique dans les séquences de tokens décodées en raison de différents ordres d'accumulation en virgule flottante. Un taux de divergence de 100% a été observé sur des modèles comme LLaMA-2-7B et Mistral-7B, le cache-ON offrant souvent une meilleure précision.

AI models inference LLMs numerical precision

RESEARCHarXiv CS.LG·15/04/2026

How Transformers Learn to Plan via Multi-Token Prediction

Cet article examine comment la prédiction multi-jetons (MTP) permet aux Transformers d'apprendre à planifier, surpassant la prédiction du jeton suivant (NTP). Empiriquement, la MTP améliore les performances sur les tâches de raisonnement, et théoriquement, elle induit un processus de raisonnement inverse en deux étapes via le découplage des gradients.

Next-token prediction Planning Multi-Token Prediction Reasoning

DOCDEV.to AI·il y a 20j

92. BERT: The Model That Reads in Both Directions

BERT se distingue de GPT par sa capacité de lecture bidirectionnelle, prédisant des mots masqués plutôt que séquentiels. Cette compréhension contextuelle complète l'a rendu dominant dans les benchmarks PNL et une pierre angulaire pour les tâches de compréhension. Le contenu détaille les mécanismes de pré-entraînement et les techniques de réglage fin de BERT.

BERT GPT machine learning NLP

RESEARCHDEV.to AI·il y a 24j

Efficient 8-Bit Quantization of Transformer Neural Machine Language TranslationModel

Cet article aborde la quantification efficace sur 8 bits des modèles de traduction automatique Transformer. L'objectif est d'optimiser les performances et l'efficacité de ces modèles en réduisant la consommation de mémoire et la latence.

AI models efficiency NLP quantization

DOCDEV.to AI·il y a 24j

83. HuggingFace: Your Library for Every Pretrained Model

Ce contenu explique comment HuggingFace rend le PNL pratique accessible via ses bibliothèques et son Model Hub. Il démontre la simplification de l'utilisation de modèles pré-entraînés pour des tâches comme l'analyse de sentiments avec un code minimal.

learning machine learning NLP HuggingFace

RESEARCHDEV.to AI·27/04/2026

An Attention Free Transformer

Ce contenu présente le concept d'un Transformer sans attention, une nouvelle conception architecturale visant à reproduire les capacités des Transformers traditionnels sans le mécanisme d'auto-attention. Il explore probablement des mécanismes alternatifs pour le traitement des informations contextuelles dans les tâches de séquence à séquence.

neural networks deep learning AI Architectures Transformers

RESEARCHarXiv CS.LG·27/04/2026

Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning

Cette recherche étudie la nécessité des jetons de mémoire appris comme bloc-notes computationnel pour les Universal Transformers avec Temps de Calcul Adaptatif (ACT) sur un benchmark de raisonnement combinatoire. Elle conclut que les jetons de mémoire sont empiriquement nécessaires pour une performance non triviale, identifiant un seuil inférieur net pour le nombre optimal et un piège courant d'initialisation de routeur.

neural networks deep learning memory Reasoning

RESEARCHarXiv CS.LG·16/04/2026

The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

Cette recherche examine le phénomène de 'grokking' dans les transformateurs, constatant que le long délai de généralisation dans les modèles arithmétiques résulte d'un goulot d'étranglement du décodeur. L'encodeur acquiert rapidement des connaissances structurelles pertinentes, mais le décodeur peine à y accéder, une hypothèse étayée par des interventions causales telles que la transplantation d'encodeurs.

grokking machine learning representation learning Transformers

RESEARCHarXiv CS.LG·27/04/2026

LayerBoost: Layer-Aware Attention Reduction for Efficient LLMs

LayerBoost propose une optimisation pour les LLM en modifiant sélectivement le mécanisme d'attention en fonction de la sensibilité des couches individuelles du transformateur. Cela vise à réduire la complexité quadratique de l'attention softmax, un goulot d'étranglement majeur pour l'inférence efficace, sans dégradation significative de la qualité du modèle.

LLMs AI optimization attention mechanisms Transformers

RESEARCHarXiv CS.LG·20/04/2026

The Spectral Geometry of Thought: Phase Transitions, Instruction Reversal, Token-Level Dynamics, and Perfect Correctness Prediction in How Transformers Reason

Cet article de recherche découvre des transitions de phase spectrales dans les espaces d'activation cachés des grands modèles linguistiques lors du raisonnement par rapport au rappel factuel. Une analyse spectrale systématique sur 11 modèles et 5 familles d'architecture identifie sept phénomènes centraux, y compris la compression spectrale de raisonnement et l'inversion spectrale par réglage des instructions.

neural networks LLMs machine learning AI Research

RESEARCHarXiv CS.LG·08/05/2026

Adaptive Computation Depth via Learned Token Routing in Transformers

Cet article introduit Token-Selective Attention (TSA), un mécanisme pour les architectures Transformer qui permet une profondeur de calcul adaptative par jeton. Le TSA apprend à acheminer les jetons en fonction de la difficulté contextuelle, économisant 14 à 23 % des opérations de couche de jetons avec une perte de qualité minimale.

neural networks deep learning machine learning efficiency

RESEARCHarXiv CS.LG·il y a 17j

Temporal Contrastive Transformer for Financial Crime Detection: Self-Supervised Sequence Embeddings via Predictive Contrastive Coding

Le Temporal Contrastive Transformer (TCT) est un nouveau cadre d'apprentissage de représentations conçu pour les séquences de transactions financières, visant la détection de fraudes. Il utilise l'apprentissage contrastif auto-supervisé pour produire des embeddings qui encodent les schémas comportementaux temporels, affichant une performance prédictive significative, surtout lorsqu'il est combiné avec des caractéristiques spécifiques au domaine.

Financial AI security machine learning fraud detection

RESEARCHarXiv CS.LG·24/04/2026

Absorber LLM: Harnessing Causal Synchronization for Test-Time Training

Les Transformers rencontrent des coûts computationnels élevés et une forte consommation de mémoire pour les longues séquences, et les alternatives perdent les dépendances à long terme. Absorber LLM propose une synchronisation causale auto-supervisée pour absorber les contextes historiques dans les paramètres, garantissant qu'un modèle sans contexte corresponde à l'original avec un contexte complet pour les générations futures.

AI architecture Natural Language Processing Machine Learning Optimization large language models

RESEARCHarXiv CS.LG·il y a 28j

TTCD:Transformer Integrated Temporal Causal Discovery from Non-Stationary Time Series Data

Le cadre TTCD (Transformer Integrated Temporal Causal Discovery) est une nouvelle approche de bout en bout conçue pour apprendre les relations causales contemporaines et décalées à partir de données complexes de séries temporelles non stationnaires. Cette méthode aborde les limites des techniques existantes en intégrant l'attention temporelle et dans le domaine fréquentiel, offrant une solution unifiée pour des scénarios réels exigeants.

Causal Discovery machine learning non-stationary data Time Series

RESEARCHarXiv CS.AI·07/05/2026

The Scaling Properties of Implicit Deductive Reasoning in Transformers

Cet article étudie les propriétés de mise à l'échelle du raisonnement déductif implicite sur les clauses de Horn dans les Transformers à profondeur limitée. Les modèles profonds avec un masque de préfixe bidirectionnel approchent les performances explicites de CoT, bien que CoT reste nécessaire pour l'extrapolation en profondeur.

neural networks scaling deductive reasoning AI Research

RESEARCHarXiv CS.LG·il y a 21j

Forecasting Medium-Horizon Alzheimer's Disease Progression: Residual Gap-Aware Transformers for 24-Month CDR-SB Change from ADNI Clinical and Biomarker Histories

Cet article propose un transformateur conscient des écarts résiduels pour prévoir la progression de la maladie d'Alzheimer sur 24 mois, en utilisant les historiques cliniques et de biomarqueurs de l'ADNI. La recherche analyse le changement du score CDR-SB, ancrant les échantillons lors des visites de déficience cognitive légère.

Biomarkers machine learning Alzheimer's disease Medical Diagnosis

RESEARCHarXiv CS.LG·il y a 28j

Statistical Inference and Quality Measures of KV Cache Quantisations Inspired by TurboQuant

Cette recherche analyse trois schémas de quantification de cache KV (KV, KQV, QKQV) et leur impact sur la variance du produit interne, en particulier comment QJL sur K l'augmente, amplifié par softmax. Les résultats empiriques soulignent la performance supérieure de KQV avec un budget de n=4, une assymétrie K-V inconditionnelle où QKQV est systématiquement moins bon que KQV en divergence KL, et des croisements dépendants du budget pour la reconstruction géométrique de K.

machine learning quantization AI statistical inference

RESEARCHarXiv CS.LG·il y a 29j

Toeplitz MLP Mixers are Low Complexity, Information-Rich Sequence Models

Le Toeplitz MLP Mixer (TMM) est une nouvelle architecture de type transformateur qui remplace l'attention par une multiplication de matrice de Toeplitz masquée triangulairement, réduisant significativement la complexité computationnelle à O(dn log n) en temps et O(dn) en espace. Les TMM démontrent une efficacité d'entraînement supérieure et une meilleure rétention d'informations d'entrée par rapport aux transformateurs traditionnels, malgré leur conception plus simple.

neural networks AI architecture Computational Efficiency sequence models