← heapsort-ai

Transformers

56 items

RESEARCHarXiv CS.LG·4/6/2026

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models

Este trabalho explora o agendamento de modelos para acelerar os Modelos de Linguagem de Difusão Mascarada (MDLMs), substituindo o modelo completo por um menor em certas etapas de denoising. A pesquisa mostra que as etapas iniciais e finais são mais robustas a essa substituição, permitindo uma redução de até 17% nos FLOPs com degradação mínima na perplexidade generativa.

28
RESEARCHarXiv CS.LG·vor 7T

DAStatFormer: A Hybrid Multibranch Transformer with Statistical Feature Integration for DAS-Based Pattern Recognitions

DAStatFormer ist ein hybrider Multibranch-Transformer, der vorgeschlagen wird, um die Herausforderungen hoher Dimensionalität und komplexer raum-zeitlicher Muster in der verteilten akustischen Sensorik (DAS) zu überwinden. Er integriert kompakte statistische Merkmale aus mehreren Domänen, reduziert die Datengröße erheblich und verbessert die Ereignisklassifizierung.

28
RESEARCHarXiv CS.LG·4/20/2026

The Illusion of Equivalence: Systematic FP16 Divergence in KV-Cached Autoregressive Inference

Diese Forschung zeigt, dass KV-Caching in der autoregressiven Transformer-Inferenz bei Standard-FP16-Genauigkeit eine systematische Divergenz in dekodierten Token-Sequenzen verursacht, bedingt durch unterschiedliche Gleitkomma-Akkumulationsreihenfolgen. Bei Modellen wie LLaMA-2-7B und Mistral-7B wurde eine 100%ige Token-Divergenzrate beobachtet, wobei Cache-ON oft zu höherer Genauigkeit führte.

27
DOCDEV.to AI·vor 20T

92. BERT: The Model That Reads in Both Directions

BERT unterscheidet sich von GPT durch seine bidirektionale Lesefähigkeit, bei der maskierte Wörter anstelle von sequentiellen Wörtern vorhergesagt werden. Dieses umfassende Kontextverständnis machte es dominant bei NLP-Benchmarks und zu einem Eckpfeiler für Verständnisaufgaben. Der Inhalt beschreibt die Vortrainingsmechanismen und Feinabstimmungstechniken von BERT.

27
RESEARCHDEV.to AI·4/27/2026

An Attention Free Transformer

Dieser Inhalt stellt das Konzept eines aufmerksamkeitsfreien Transformers vor, ein neuartiges Architekturdesign, das darauf abzielt, die Fähigkeiten herkömmlicher Transformer ohne den Selbstaufmerksamkeitsmechanismus zu erreichen. Es werden wahrscheinlich alternative Mechanismen zur Verarbeitung kontextbezogener Informationen in Sequenz-zu-Sequenz-Aufgaben untersucht.

27
RESEARCHarXiv CS.LG·4/27/2026

Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning

Diese Studie untersucht die Notwendigkeit von gelernten Speicher-Tokens als Berechnungskladde für Universal Transformers mit adaptiver Berechnungszeit (ACT) auf einem kombinatorischen Denk-Benchmark. Sie zeigt, dass Speicher-Tokens empirisch notwendig für eine nicht-triviale Leistung sind und identifiziert eine scharfe untere Schwelle für die optimale Anzahl sowie eine häufige Router-Initialisierungsfalle.

27
RESEARCHarXiv CS.LG·4/16/2026

The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

Diese Forschung untersucht das Phänomen des „Grokking“ in Transformatoren und stellt fest, dass die lange Verzögerung bei der Generalisierung in arithmetischen Modellen auf einen Decoder-Engpass zurückzuführen ist. Der Encoder erwirbt relevantes Strukturwissen frühzeitig, doch der Decoder hat Schwierigkeiten, darauf zuzugreifen, eine Hypothese, die durch kausale Interventionen wie das Transplantieren von Encodern gestützt wird.

27
RESEARCHarXiv CS.LG·4/27/2026

LayerBoost: Layer-Aware Attention Reduction for Efficient LLMs

LayerBoost schlägt eine Optimierung für LLMs vor, indem es den Aufmerksamkeitsmechanismus basierend auf der Empfindlichkeit einzelner Transformator-Schichten selektiv modifiziert. Ziel ist es, die quadratische Komplexität der Softmax-Aufmerksamkeit, einen Hauptengpass für effiziente Inferenz, ohne signifikanten Qualitätsverlust des Modells zu reduzieren.

27
RESEARCHarXiv CS.LG·4/20/2026

The Spectral Geometry of Thought: Phase Transitions, Instruction Reversal, Token-Level Dynamics, and Perfect Correctness Prediction in How Transformers Reason

Diese Forschungsarbeit entdeckt spektrale Phasenübergänge in den verborgenen Aktivierungsräumen großer Sprachmodelle beim Denken im Vergleich zum Faktenabruf. Eine systematische Spektralanalyse über 11 Modelle und 5 Architektfamilien identifiziert sieben Kernphänomene, darunter spektrale Kompression beim Denken und spektrale Umkehrung durch Instruktionsabstimmung.

27
RESEARCHarXiv CS.LG·vor 17T

Temporal Contrastive Transformer for Financial Crime Detection: Self-Supervised Sequence Embeddings via Predictive Contrastive Coding

Der Temporal Contrastive Transformer (TCT) ist ein neuer Rahmen für das Repräsentationslernen, der für Sequenzen von Finanztransaktionen zur Betrugserkennung entwickelt wurde. Er nutzt selbstüberwachtes kontrastives Lernen, um Einbettungen zu erzeugen, die zeitliche Verhaltensmuster erfassen, und zeigt eine aussagekräftige Vorhersageleistung, insbesondere in Kombination mit domänen-spezifischen Merkmalen.

27
RESEARCHarXiv CS.LG·4/24/2026

Absorber LLM: Harnessing Causal Synchronization for Test-Time Training

Transformatoren leiden unter hohen Rechenkosten und Speicherverbrauch bei langen Sequenzen, während Alternativen Langzeitabhängigkeiten verlieren. Absorber LLM schlägt eine selbstüberwachte kausale Synchronisation vor, um historische Kontexte in Modellparameter zu absorbieren, sodass ein kontextloses Modell zukünftige Generierungen eines Modells mit vollständigem Kontext erreichen kann.

27
RESEARCHarXiv CS.LG·vor 28T

TTCD:Transformer Integrated Temporal Causal Discovery from Non-Stationary Time Series Data

Das TTCD (Transformer Integrated Temporal Causal Discovery) Framework ist ein neuartiger End-to-End-Ansatz, der entwickelt wurde, um gleichzeitige und verzögerte kausale Beziehungen aus komplexen nicht-stationären Zeitreihendaten zu lernen. Diese Methode überwindet die Einschränkungen bestehender Techniken durch die Integration von zeitlicher und Frequenzbereichs-Aufmerksamkeit und bietet eine einheitliche Lösung für anspruchsvolle reale Szenarien.

27
RESEARCHarXiv CS.LG·vor 21T

Forecasting Medium-Horizon Alzheimer's Disease Progression: Residual Gap-Aware Transformers for 24-Month CDR-SB Change from ADNI Clinical and Biomarker Histories

Dieser Artikel stellt einen residualen lückenbewussten Transformator zur Vorhersage des 24-monatigen Fortschreitens der Alzheimer-Krankheit mittels ADNI-Klinik- und Biomarker-Historien vor. Die Forschung analysiert Änderungen der CDR-SB-Werte, wobei Proben bei Besuchen mit leichter kognitiver Beeinträchtigung verankert werden.

27
RESEARCHarXiv CS.LG·vor 28T

Statistical Inference and Quality Measures of KV Cache Quantisations Inspired by TurboQuant

Diese Forschung analysiert drei KV-Cache-Quantisierungsschemata (KV, KQV, QKQV) und deren Einfluss auf die Varianz des inneren Produkts, insbesondere wie QJL auf K diese aufbläht, verstärkt durch Softmax. Empirische Ergebnisse heben die überlegene Leistung von KQV bei einem Budget von n=4 hervor, eine bedingungslose K-V-Asymmetrie, bei der QKQV in der KL-Divergenz durchweg schlechter ist als KQV, und budgetabhängige Überschneidungen für die geometrische K-Rekonstruktion.

27
RESEARCHarXiv CS.LG·vor 29T

Toeplitz MLP Mixers are Low Complexity, Information-Rich Sequence Models

Der Toeplitz MLP Mixer (TMM) ist eine neue transformatorähnliche Architektur, die die Aufmerksamkeit durch dreiecksmaskierte Toeplitz-Matrixmultiplikation ersetzt und die Rechenkomplexität erheblich auf O(dn log n) Zeit und O(dn) Speicher reduziert. TMMs zeigen eine überlegene Trainingseffizienz und eine bessere Beibehaltung von Eingabeinformationen im Vergleich zu herkömmlichen Transformatoren, trotz ihres einfacheren Designs.

27