← heapsort-ai

Transformers

56 items

RESEARCHarXiv CS.LG·06/04/2026

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models

Este trabalho explora o agendamento de modelos para acelerar os Modelos de Linguagem de Difusão Mascarada (MDLMs), substituindo o modelo completo por um menor em certas etapas de denoising. A pesquisa mostra que as etapas iniciais e finais são mais robustas a essa substituição, permitindo uma redução de até 17% nos FLOPs com degradação mínima na perplexidade generativa.

28
RESEARCHarXiv CS.LG·il y a 7j

DAStatFormer: A Hybrid Multibranch Transformer with Statistical Feature Integration for DAS-Based Pattern Recognitions

Le DAStatFormer est un transformateur hybride multi-branches proposé pour surmonter les défis de la grande dimensionnalité et des motifs spatio-temporels complexes en détection acoustique distribuée (DAS). Il intègre des caractéristiques statistiques compactes de plusieurs domaines, réduisant considérablement la taille des données et améliorant la classification des événements.

28
RESEARCHarXiv CS.LG·20/04/2026

The Illusion of Equivalence: Systematic FP16 Divergence in KV-Cached Autoregressive Inference

Cette recherche révèle que le cache KV dans l'inférence autorégressive des transformateurs, sous la précision FP16 standard, provoque une divergence systématique dans les séquences de tokens décodées en raison de différents ordres d'accumulation en virgule flottante. Un taux de divergence de 100% a été observé sur des modèles comme LLaMA-2-7B et Mistral-7B, le cache-ON offrant souvent une meilleure précision.

27
RESEARCHarXiv CS.LG·15/04/2026

How Transformers Learn to Plan via Multi-Token Prediction

Cet article examine comment la prédiction multi-jetons (MTP) permet aux Transformers d'apprendre à planifier, surpassant la prédiction du jeton suivant (NTP). Empiriquement, la MTP améliore les performances sur les tâches de raisonnement, et théoriquement, elle induit un processus de raisonnement inverse en deux étapes via le découplage des gradients.

27
DOCDEV.to AI·il y a 20j

92. BERT: The Model That Reads in Both Directions

BERT se distingue de GPT par sa capacité de lecture bidirectionnelle, prédisant des mots masqués plutôt que séquentiels. Cette compréhension contextuelle complète l'a rendu dominant dans les benchmarks PNL et une pierre angulaire pour les tâches de compréhension. Le contenu détaille les mécanismes de pré-entraînement et les techniques de réglage fin de BERT.

27
RESEARCHDEV.to AI·27/04/2026

An Attention Free Transformer

Ce contenu présente le concept d'un Transformer sans attention, une nouvelle conception architecturale visant à reproduire les capacités des Transformers traditionnels sans le mécanisme d'auto-attention. Il explore probablement des mécanismes alternatifs pour le traitement des informations contextuelles dans les tâches de séquence à séquence.

27
RESEARCHarXiv CS.LG·27/04/2026

Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning

Cette recherche étudie la nécessité des jetons de mémoire appris comme bloc-notes computationnel pour les Universal Transformers avec Temps de Calcul Adaptatif (ACT) sur un benchmark de raisonnement combinatoire. Elle conclut que les jetons de mémoire sont empiriquement nécessaires pour une performance non triviale, identifiant un seuil inférieur net pour le nombre optimal et un piège courant d'initialisation de routeur.

27
RESEARCHarXiv CS.LG·16/04/2026

The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

Cette recherche examine le phénomène de 'grokking' dans les transformateurs, constatant que le long délai de généralisation dans les modèles arithmétiques résulte d'un goulot d'étranglement du décodeur. L'encodeur acquiert rapidement des connaissances structurelles pertinentes, mais le décodeur peine à y accéder, une hypothèse étayée par des interventions causales telles que la transplantation d'encodeurs.

27
RESEARCHarXiv CS.LG·27/04/2026

LayerBoost: Layer-Aware Attention Reduction for Efficient LLMs

LayerBoost propose une optimisation pour les LLM en modifiant sélectivement le mécanisme d'attention en fonction de la sensibilité des couches individuelles du transformateur. Cela vise à réduire la complexité quadratique de l'attention softmax, un goulot d'étranglement majeur pour l'inférence efficace, sans dégradation significative de la qualité du modèle.

27
RESEARCHarXiv CS.LG·20/04/2026

The Spectral Geometry of Thought: Phase Transitions, Instruction Reversal, Token-Level Dynamics, and Perfect Correctness Prediction in How Transformers Reason

Cet article de recherche découvre des transitions de phase spectrales dans les espaces d'activation cachés des grands modèles linguistiques lors du raisonnement par rapport au rappel factuel. Une analyse spectrale systématique sur 11 modèles et 5 familles d'architecture identifie sept phénomènes centraux, y compris la compression spectrale de raisonnement et l'inversion spectrale par réglage des instructions.

27
RESEARCHarXiv CS.LG·il y a 17j

Temporal Contrastive Transformer for Financial Crime Detection: Self-Supervised Sequence Embeddings via Predictive Contrastive Coding

Le Temporal Contrastive Transformer (TCT) est un nouveau cadre d'apprentissage de représentations conçu pour les séquences de transactions financières, visant la détection de fraudes. Il utilise l'apprentissage contrastif auto-supervisé pour produire des embeddings qui encodent les schémas comportementaux temporels, affichant une performance prédictive significative, surtout lorsqu'il est combiné avec des caractéristiques spécifiques au domaine.

27
RESEARCHarXiv CS.LG·24/04/2026

Absorber LLM: Harnessing Causal Synchronization for Test-Time Training

Les Transformers rencontrent des coûts computationnels élevés et une forte consommation de mémoire pour les longues séquences, et les alternatives perdent les dépendances à long terme. Absorber LLM propose une synchronisation causale auto-supervisée pour absorber les contextes historiques dans les paramètres, garantissant qu'un modèle sans contexte corresponde à l'original avec un contexte complet pour les générations futures.

27
RESEARCHarXiv CS.LG·il y a 28j

TTCD:Transformer Integrated Temporal Causal Discovery from Non-Stationary Time Series Data

Le cadre TTCD (Transformer Integrated Temporal Causal Discovery) est une nouvelle approche de bout en bout conçue pour apprendre les relations causales contemporaines et décalées à partir de données complexes de séries temporelles non stationnaires. Cette méthode aborde les limites des techniques existantes en intégrant l'attention temporelle et dans le domaine fréquentiel, offrant une solution unifiée pour des scénarios réels exigeants.

27
RESEARCHarXiv CS.LG·il y a 21j

Forecasting Medium-Horizon Alzheimer's Disease Progression: Residual Gap-Aware Transformers for 24-Month CDR-SB Change from ADNI Clinical and Biomarker Histories

Cet article propose un transformateur conscient des écarts résiduels pour prévoir la progression de la maladie d'Alzheimer sur 24 mois, en utilisant les historiques cliniques et de biomarqueurs de l'ADNI. La recherche analyse le changement du score CDR-SB, ancrant les échantillons lors des visites de déficience cognitive légère.

27
RESEARCHarXiv CS.LG·il y a 28j

Statistical Inference and Quality Measures of KV Cache Quantisations Inspired by TurboQuant

Cette recherche analyse trois schémas de quantification de cache KV (KV, KQV, QKQV) et leur impact sur la variance du produit interne, en particulier comment QJL sur K l'augmente, amplifié par softmax. Les résultats empiriques soulignent la performance supérieure de KQV avec un budget de n=4, une assymétrie K-V inconditionnelle où QKQV est systématiquement moins bon que KQV en divergence KL, et des croisements dépendants du budget pour la reconstruction géométrique de K.

27
RESEARCHarXiv CS.LG·il y a 29j

Toeplitz MLP Mixers are Low Complexity, Information-Rich Sequence Models

Le Toeplitz MLP Mixer (TMM) est une nouvelle architecture de type transformateur qui remplace l'attention par une multiplication de matrice de Toeplitz masquée triangulairement, réduisant significativement la complexité computationnelle à O(dn log n) en temps et O(dn) en espace. Les TMM démontrent une efficacité d'entraînement supérieure et une meilleure rétention d'informations d'entrée par rapport aux transformateurs traditionnels, malgré leur conception plus simple.

27