Transformers

56 items

RESEARCHarXiv CS.LG·4/6/2026

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models

Este trabalho explora o agendamento de modelos para acelerar os Modelos de Linguagem de Difusão Mascarada (MDLMs), substituindo o modelo completo por um menor em certas etapas de denoising. A pesquisa mostra que as etapas iniciais e finais são mais robustas a essa substituição, permitindo uma redução de até 17% nos FLOPs com degradação mínima na perplexidade generativa.

Diffusion Models language models Computational Efficiency denoising

RESEARCHarXiv CS.LG·vor 7T

DAStatFormer: A Hybrid Multibranch Transformer with Statistical Feature Integration for DAS-Based Pattern Recognitions

DAStatFormer ist ein hybrider Multibranch-Transformer, der vorgeschlagen wird, um die Herausforderungen hoher Dimensionalität und komplexer raum-zeitlicher Muster in der verteilten akustischen Sensorik (DAS) zu überwinden. Er integriert kompakte statistische Merkmale aus mehreren Domänen, reduziert die Datengröße erheblich und verbessert die Ereignisklassifizierung.

deep learning machine learning pattern recognition distributed acoustic sensing

RESEARCHarXiv CS.LG·4/20/2026

The Illusion of Equivalence: Systematic FP16 Divergence in KV-Cached Autoregressive Inference

Diese Forschung zeigt, dass KV-Caching in der autoregressiven Transformer-Inferenz bei Standard-FP16-Genauigkeit eine systematische Divergenz in dekodierten Token-Sequenzen verursacht, bedingt durch unterschiedliche Gleitkomma-Akkumulationsreihenfolgen. Bei Modellen wie LLaMA-2-7B und Mistral-7B wurde eine 100%ige Token-Divergenzrate beobachtet, wobei Cache-ON oft zu höherer Genauigkeit führte.

AI models inference LLMs numerical precision

RESEARCHarXiv CS.LG·4/15/2026

How Transformers Learn to Plan via Multi-Token Prediction

Diese Arbeit untersucht, wie Multi-Token-Vorhersage (MTP) Transformer befähigt, Planen zu lernen, und dabei die Standard-Nächste-Token-Vorhersage (NTP) übertrifft. Empirisch verbessert MTP die Leistung bei Denkaufgaben durchgängig, und theoretisch induziert es einen zweistufigen umgekehrten Schlussfolgerungsprozess mittels Gradientenentkopplung.

Next-token prediction Planning Multi-Token Prediction Reasoning

DOCDEV.to AI·vor 20T

92. BERT: The Model That Reads in Both Directions

BERT unterscheidet sich von GPT durch seine bidirektionale Lesefähigkeit, bei der maskierte Wörter anstelle von sequentiellen Wörtern vorhergesagt werden. Dieses umfassende Kontextverständnis machte es dominant bei NLP-Benchmarks und zu einem Eckpfeiler für Verständnisaufgaben. Der Inhalt beschreibt die Vortrainingsmechanismen und Feinabstimmungstechniken von BERT.

BERT GPT machine learning NLP

RESEARCHDEV.to AI·vor 24T

Efficient 8-Bit Quantization of Transformer Neural Machine Language TranslationModel

Dieser Artikel behandelt die effiziente 8-Bit-Quantisierung von Transformer-Modellen für die neuronale maschinelle Sprachübersetzung. Ziel ist es, die Leistung und Effizienz dieser Modelle durch Reduzierung des Speicherverbrauchs und der Latenz zu optimieren.

AI models efficiency NLP quantization

DOCDEV.to AI·vor 24T

83. HuggingFace: Your Library for Every Pretrained Model

Dieser Inhalt zeigt, wie HuggingFace praktisches NLP durch seine Bibliotheken und den Model Hub zugänglich macht. Er demonstriert die Vereinfachung der Nutzung vortrainierter Modelle für Aufgaben wie die Stimmungsanalyse mit minimalem Code.

learning machine learning NLP HuggingFace

RESEARCHDEV.to AI·4/27/2026

An Attention Free Transformer

Dieser Inhalt stellt das Konzept eines aufmerksamkeitsfreien Transformers vor, ein neuartiges Architekturdesign, das darauf abzielt, die Fähigkeiten herkömmlicher Transformer ohne den Selbstaufmerksamkeitsmechanismus zu erreichen. Es werden wahrscheinlich alternative Mechanismen zur Verarbeitung kontextbezogener Informationen in Sequenz-zu-Sequenz-Aufgaben untersucht.

neural networks deep learning AI Architectures Transformers

RESEARCHarXiv CS.LG·4/27/2026

Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning

Diese Studie untersucht die Notwendigkeit von gelernten Speicher-Tokens als Berechnungskladde für Universal Transformers mit adaptiver Berechnungszeit (ACT) auf einem kombinatorischen Denk-Benchmark. Sie zeigt, dass Speicher-Tokens empirisch notwendig für eine nicht-triviale Leistung sind und identifiziert eine scharfe untere Schwelle für die optimale Anzahl sowie eine häufige Router-Initialisierungsfalle.

neural networks deep learning memory Reasoning

RESEARCHarXiv CS.LG·4/16/2026

The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

Diese Forschung untersucht das Phänomen des „Grokking“ in Transformatoren und stellt fest, dass die lange Verzögerung bei der Generalisierung in arithmetischen Modellen auf einen Decoder-Engpass zurückzuführen ist. Der Encoder erwirbt relevantes Strukturwissen frühzeitig, doch der Decoder hat Schwierigkeiten, darauf zuzugreifen, eine Hypothese, die durch kausale Interventionen wie das Transplantieren von Encodern gestützt wird.

grokking machine learning representation learning Transformers

RESEARCHarXiv CS.LG·4/27/2026

LayerBoost: Layer-Aware Attention Reduction for Efficient LLMs

LayerBoost schlägt eine Optimierung für LLMs vor, indem es den Aufmerksamkeitsmechanismus basierend auf der Empfindlichkeit einzelner Transformator-Schichten selektiv modifiziert. Ziel ist es, die quadratische Komplexität der Softmax-Aufmerksamkeit, einen Hauptengpass für effiziente Inferenz, ohne signifikanten Qualitätsverlust des Modells zu reduzieren.

LLMs AI optimization attention mechanisms Transformers

RESEARCHarXiv CS.LG·4/20/2026

The Spectral Geometry of Thought: Phase Transitions, Instruction Reversal, Token-Level Dynamics, and Perfect Correctness Prediction in How Transformers Reason

Diese Forschungsarbeit entdeckt spektrale Phasenübergänge in den verborgenen Aktivierungsräumen großer Sprachmodelle beim Denken im Vergleich zum Faktenabruf. Eine systematische Spektralanalyse über 11 Modelle und 5 Architektfamilien identifiziert sieben Kernphänomene, darunter spektrale Kompression beim Denken und spektrale Umkehrung durch Instruktionsabstimmung.

neural networks LLMs machine learning AI Research

RESEARCHarXiv CS.LG·5/8/2026

Adaptive Computation Depth via Learned Token Routing in Transformers

Dieses Papier stellt Token-Selective Attention (TSA) vor, einen Mechanismus für Transformer-Architekturen, der eine adaptive Berechnungstiefe pro Token ermöglicht. TSA lernt, Tokens basierend auf kontextueller Schwierigkeit zu leiten und spart 14-23 % der Token-Layer-Operationen bei minimalem Qualitätsverlust.

neural networks deep learning machine learning efficiency

RESEARCHarXiv CS.LG·vor 17T

Temporal Contrastive Transformer for Financial Crime Detection: Self-Supervised Sequence Embeddings via Predictive Contrastive Coding

Der Temporal Contrastive Transformer (TCT) ist ein neuer Rahmen für das Repräsentationslernen, der für Sequenzen von Finanztransaktionen zur Betrugserkennung entwickelt wurde. Er nutzt selbstüberwachtes kontrastives Lernen, um Einbettungen zu erzeugen, die zeitliche Verhaltensmuster erfassen, und zeigt eine aussagekräftige Vorhersageleistung, insbesondere in Kombination mit domänen-spezifischen Merkmalen.

Financial AI security machine learning fraud detection

RESEARCHarXiv CS.LG·4/24/2026

Absorber LLM: Harnessing Causal Synchronization for Test-Time Training

Transformatoren leiden unter hohen Rechenkosten und Speicherverbrauch bei langen Sequenzen, während Alternativen Langzeitabhängigkeiten verlieren. Absorber LLM schlägt eine selbstüberwachte kausale Synchronisation vor, um historische Kontexte in Modellparameter zu absorbieren, sodass ein kontextloses Modell zukünftige Generierungen eines Modells mit vollständigem Kontext erreichen kann.

AI architecture Natural Language Processing Machine Learning Optimization large language models

RESEARCHarXiv CS.LG·vor 28T

TTCD:Transformer Integrated Temporal Causal Discovery from Non-Stationary Time Series Data

Das TTCD (Transformer Integrated Temporal Causal Discovery) Framework ist ein neuartiger End-to-End-Ansatz, der entwickelt wurde, um gleichzeitige und verzögerte kausale Beziehungen aus komplexen nicht-stationären Zeitreihendaten zu lernen. Diese Methode überwindet die Einschränkungen bestehender Techniken durch die Integration von zeitlicher und Frequenzbereichs-Aufmerksamkeit und bietet eine einheitliche Lösung für anspruchsvolle reale Szenarien.

Causal Discovery machine learning non-stationary data Time Series

RESEARCHarXiv CS.AI·5/7/2026

The Scaling Properties of Implicit Deductive Reasoning in Transformers

Diese Arbeit untersucht die Skalierungseigenschaften des impliziten deduktiven Denkens über Horn-Klauseln in tiefen Transformers. Ausreichend tiefe Modelle mit bidirektionaler Präfixmaske erreichen die explizite CoT-Leistung, wobei CoT für die Tiefenextrapolation notwendig bleibt.

neural networks scaling deductive reasoning AI Research

RESEARCHarXiv CS.LG·vor 21T

Forecasting Medium-Horizon Alzheimer's Disease Progression: Residual Gap-Aware Transformers for 24-Month CDR-SB Change from ADNI Clinical and Biomarker Histories

Dieser Artikel stellt einen residualen lückenbewussten Transformator zur Vorhersage des 24-monatigen Fortschreitens der Alzheimer-Krankheit mittels ADNI-Klinik- und Biomarker-Historien vor. Die Forschung analysiert Änderungen der CDR-SB-Werte, wobei Proben bei Besuchen mit leichter kognitiver Beeinträchtigung verankert werden.

Biomarkers machine learning Alzheimer's disease Medical Diagnosis

RESEARCHarXiv CS.LG·vor 28T

Statistical Inference and Quality Measures of KV Cache Quantisations Inspired by TurboQuant

Diese Forschung analysiert drei KV-Cache-Quantisierungsschemata (KV, KQV, QKQV) und deren Einfluss auf die Varianz des inneren Produkts, insbesondere wie QJL auf K diese aufbläht, verstärkt durch Softmax. Empirische Ergebnisse heben die überlegene Leistung von KQV bei einem Budget von n=4 hervor, eine bedingungslose K-V-Asymmetrie, bei der QKQV in der KL-Divergenz durchweg schlechter ist als KQV, und budgetabhängige Überschneidungen für die geometrische K-Rekonstruktion.

machine learning quantization AI statistical inference

RESEARCHarXiv CS.LG·vor 29T

Toeplitz MLP Mixers are Low Complexity, Information-Rich Sequence Models

Der Toeplitz MLP Mixer (TMM) ist eine neue transformatorähnliche Architektur, die die Aufmerksamkeit durch dreiecksmaskierte Toeplitz-Matrixmultiplikation ersetzt und die Rechenkomplexität erheblich auf O(dn log n) Zeit und O(dn) Speicher reduziert. TMMs zeigen eine überlegene Trainingseffizienz und eine bessere Beibehaltung von Eingabeinformationen im Vergleich zu herkömmlichen Transformatoren, trotz ihres einfacheren Designs.

neural networks AI architecture Computational Efficiency sequence models