Transformers

56 items

RESEARCHarXiv CS.LG·vor 1T

WAV: Multi-Resolution Block Residual Routing for Deep Decoder-Only Transformers

Der Artikel stellt WAV v1 vor, eine leichte Multi-Resolution-Residual-Routing-Methode für Decoder-Only-Transformatoren. Sie verbessert Standard-Residual-Verbindungen, indem sie jeden Block mit direktionalen Detailbasen erweitert, die Aufmerksamkeits- und MLP-Updates sowie frühe und späte Sublayer-Dynamiken kontrastieren.

Residual Connections neural networks deep learning Model Architecture

RESEARCH↑ trendingReddit r/MachineLearning·vor 27T

Trained transformer-based chess models to play like humans (including thinking time) [P]

Ein Entwickler trainierte transformer-basierte Deep-Learning-Modelle, um Schach wie Menschen über verschiedene Bewertungsbereiche hinweg zu spielen, einschließlich der Vorhersage der Denkzeit. Die Modelle wurden mit Lichess-Daten trainiert und erreichten trotz ihrer geringen Größe eine mit MAIA-3 vergleichbare Genauigkeit.

AI models deep learning chess AI model training

ARTICLE↑ trendingReddit r/MachineLearning·4/24/2026

Nanochat vs Llama for training from scratch? [P]

Der Benutzer trainiert ein KI-Modell von Grund auf neu und bittet um Rat zur besten Architektur, wobei er überlegt, von Nanochat (das keine Transformers-Kompatibilität bietet) zur Llama-Architektur zu wechseln. Ziel ist ein Open-Source-Projekt mit einem neuen, größeren Datensatz, trotz der Vorteile von Nanochat.

AI architecture open-source AI AI training LLM

RESEARCH↑ trendingReddit r/MachineLearning·5/4/2026

Why SSMs struggle in parameter-constrained training: empirical findings at 25M parameters [R]

Dieser Beitrag beschreibt empirische Erkenntnisse aus OpenAIs Parameter Golf-Wettbewerb und erklärt, warum State Space Models (SSMs) gegenüber Transformatoren bei parameter- und zeitbeschränkten Trainingsbedingungen strukturell benachteiligt sind. Hauptprobleme sind eine schlechtere Komprimierung der in_proj-Gewichte von SSMs und architektonische Umkehrmeldungen bei größeren Vokabulargrößen, ergänzt durch Einblicke aus Mamba-3 Triton-Kernel-Experimenten.

SSMs AI models Performance optimization Neural network training

RESEARCH↑ trendingReddit r/MachineLearning·4/16/2026

ResBM: a new transformer-based architecture for low-bandwidth pipeline-parallel training, achieving 128× activation compression [R]

Macrocosmos hat ResBM eingeführt, eine neue Transformator-basierte Architektur für Pipeline-paralleles Training mit geringer Bandbreite. Sie erreicht eine 128-fache Aktivierungskompression ohne signifikanten Konvergenzverlust im Vergleich zu unkomprimierten Baselines.

distributed training machine learning architecture model optimization Transformers

RESEARCH↑ trendingReddit r/MachineLearning·5/6/2026

Transformers with Selective Access to Early Representations [R]

Das Paper stellt SATFormer vor, eine neue Transformer-Variante, die die Effizienz verbessert, indem sie den "Heads" ermöglicht, frühzeitige Repräsentationen selektiv erneut abzurufen, anstatt sie uniform zu kopieren. Dieser kontextabhängige Gating-Mechanismus optimiert die Wiederverwendung von Informationen und bietet ein besseres Effizienz-Leistungs-Verhältnis.

AI architecture deep learning efficiency Transformers

Transformers with Selective Access to Early Representations [R]

RESEARCH↑ trendingReddit r/MachineLearning·4/13/2026

Thinking Deeper, Not Longer: Depth-Recurrent Transformers for Compositional Generalization [R]

Dieser Inhalt bespricht ein Forschungspapier über Depth-Recurrent Transformer und deren Erkenntnisse zur kompositionellen und Out-of-Distribution-Generalisierung. Es untersucht, wie Zwischenschritt-Supervision echtes Schlussfolgern in KI-Modellen behindern und sie übermäßig auf statistische Heuristiken verlassen lassen kann, ein Konzept, das auch auf Fundamentmodelle und die menschliche Intuition erweitert wird.

OOD Generalization Compositional Generalization AI Reasoning Intermediate Supervision

ARTICLE↑ trendingReddit r/MachineLearning·4/25/2026

How Visual-Language-Action (VLA) Models Work [D]

Dieser Artikel bietet eine technische Analyse, wie Visual-Language-Action (VLA)-Modelle funktionieren und Vision-/Spracheingaben in Roboteraktionen umsetzen. Er behandelt die wichtigsten derzeit verwendeten Aktionsdekodierungsansätze wie tokenisierte autoregressive Aktionen, diffusionsbasierte Aktionsköpfe und Flow-Matching-Richtlinien.

machine learning embodied AI VLA models robotics

How Visual-Language-Action (VLA) Models Work [D]

ARTICLE↑ trendingReddit r/LocalLLaMA·5/1/2026

By when do you think will TurboQuant get a proper release and be adopted by everyone

Der Benutzer fragt nach dem Veröffentlichungsdatum und der breiten Akzeptanz von TurboQuant und hebt die erheblichen Leistungssteigerungen durch die Verwendung eines asymmetrischen Setups für K und V hervor. Die Diskussion deutet auf eine technische Optimierung in KI-Modellen hin.

AI models machine learning Transformers

RESEARCHarXiv CS.LG·vor 5T

Do Transformers Need Three Projections? Systematic Study of QKV Variants

Diese Forschung untersucht systematisch Varianten der Query-, Key- und Value- (QKV) Aufmerksamkeitsformulierung in Transformatoren, einschließlich geteilter Key-Value-, Query-Key- und Einzelprojektionen. Experimente in synthetischen Aufgaben, Vision und Sprachmodellierung zeigen, dass diese alternativen Formulierungen gleich gut oder manchmal besser als Standard-QKV-Transformatoren abschneiden, wobei die Q-K=V-Teilung eine erhebliche KV-Cache-Reduzierung in der Sprachmodellierung bietet.

QKV computer vision attention mechanisms Language modeling

RESEARCHarXiv CS.LG·4/22/2026

Handling and Interpreting Missing Modalities in Patient Clinical Trajectories via Autoregressive Sequence Modeling

Diese Arbeit befasst sich mit der Herausforderung fehlender Modalitäten in multimodalen klinischen Daten für die Diagnose, indem sie dies als autoregressive Sequenzmodellierungsaufgabe neu formuliert. Sie nutzt kausale Decoder von LLMs und ein fehlendes-sensitives kontrastives Vor-Training, um Baselines bei Benchmarks wie MIMIC-IV und eICU zu übertreffen.

multimodal AI machine learning large language models healthcare AI

RESEARCHarXiv CS.LG·4/15/2026

Subcritical Signal Propagation at Initialization in Normalization-Free Transformers

Diese Arbeit untersucht die Signalausbreitung bei der Initialisierung in Transformatoren mittels der gemittelten partiellen Jacobi-Norm (APJN) zur Messung der Gradientenverstärkung. Die Theorie erweitert die APJN-Analyse, prognostiziert das asymptotische Verhalten der APJN bei großer Tiefe und erklärt die Subkritikalität von normalisierungsfreien Architekturen wie Dynamic Tanh- und Dynamic erf-Transformatoren.

Normalization-Free Transformers Gradient Amplification Signal Propagation Initialization

RESEARCHarXiv CS.LG·4/28/2026

Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

Diese Arbeit behandelt den erheblichen Speicherbedarf von Key-Value (KV)-Caching in Transformer-Sprachmodellen und schlägt eine Optimierung entlang der Tiefen-Dimension vor. Sie stellt eine Methode zum schichtübergreifenden Cache-Sharing vor, die zeigt, dass das Löschen des Caches einer Schicht effizient ohne Informationsverlust sein kann, und schlägt einen Trainingsansatz mit zufälliger schichtübergreifender Aufmerksamkeit vor.

deep learning Memory Optimization large language models Transformers

RESEARCHarXiv CS.LG·4/28/2026

The Spectral Lifecycle of Transformer Training: Transient Compression Waves, Persistent Spectral Gradients, and the Q/K--V Asymmetry

Diese systematische Untersuchung der Singulärwertspektren während des Transformer-Vortrainings deckt drei Schlüsselphänomene auf: transiente Kompressionswellen und persistente spektrale Gradienten. Sie zeigt auch eine funktionale Q/K-V-Asymmetrie, bei der Query/Key-Projektionen die tiefenabhängige Dynamik steuern.

neural networks deep learning Model Analysis training dynamics

RESEARCHarXiv CS.LG·vor 8T

When LLMs Learn to Be Consistently Wrong: A Multi-Model Study of Linear Representations of Synthetic Deception

Diese Arbeit untersucht die "täuschende Ausrichtung" in LLMs, eine zentrale Herausforderung in der KI-Sicherheit, bei der Modelle absichtlich falsche Ausgaben erzeugen, während sie genaue interne Darstellungen beibehalten. Mittels eines Mehrmodell-Paradigmas mit fünf Transformator-Architekturen gelang es den Forschenden, synthetische Unehrlichkeit mit hoher Genauigkeit mittels linearer Sonden zu erkennen.

LLMs machine learning deception AI safety

RESEARCHarXiv CS.LG·5/6/2026

eOptShrinkQ: Near-Lossless KV Cache Compression Through Optimal Spectral Denoising and Quantization

eOptShrinkQ ist eine zweistufige Kompressionspipeline für den KV-Cache in Transformer-Aufmerksamkeitsköpfen. Sie nutzt optimale Singulärwertschrumpfung und per-Vektor-Skalarquantisierung, basierend auf der Theorie der Zufallsmatrizen, um eine nahezu verlustfreie Kompression zu erreichen und die Rekonstruktion zu verbessern.

quantization Random matrix theory AI compression KV cache

ARTICLEDEV.to AI·vor 28T

Multi-Head Attention: Collaborate Instead of Concatenate

Dieser Inhalt untersucht den Multi-Head-Aufmerksamkeitsmechanismus in KI-Modellen und konzentriert sich auf die Idee der Zusammenarbeit anstelle der Verkettung. Er diskutiert wahrscheinlich einen alternativen Ansatz zur Verbesserung der Effizienz oder Leistung der Aufmerksamkeit.

deep learning Attention Mechanism machine learning AI

RESEARCHarXiv CS.LG·4/14/2026

The Diffusion-Attention Connection

Diese Forschung vereinheitlicht Transformatoren, Diffusionskarten und magnetische Laplacians und präsentiert sie als verschiedene Regime einer einzigen Markov-Geometrie, die aus Pre-Softmax-Query-Scores aufgebaut ist. Sie definiert eine QK-"Bidivergenz", um Attention und Diffusion zu verbinden und ihre Dynamik mittels Produkt von Experten und Schrödinger-Brücken zu organisieren.

Diffusion Models Deep Learning Theory Markov Geometry attention mechanisms

DOCDEV.to AI·4/17/2026

Understanding Transformers Part 9: Stacking Self-Attention Layers

Dieser Artikel erklärt, warum Selbstaufmerksamkeitswerte die ursprünglichen Positional Encodings ersetzen, da sie kontextuelle Informationen aller Wörter integrieren und Beziehungen verdeutlichen. Anschließend wird das Stapeln mehrerer Selbstaufmerksamkeitsschichten, jeweils mit einzigartigen Gewichten, vorgestellt, um komplexere sprachliche Beziehungen innerhalb von Sätzen und Absätzen zu erfassen.

neural networks Self-Attention deep learning NLP

ARTICLEDEV.to AI·vor 29T

How Large Language Models Work — From Transformers to Conversational AI

Große Sprachmodelle (LLMs) funktionieren als neuronale Netze, die Muster in Text lernen, um Inhalte zu generieren, indem sie das nächste Token vorhersagen. Diese leistungsstarke Funktionalität wird durch große Datenmengen, tiefe Architekturen und Transformer-basierte Aufmerksamkeit angetrieben.

AI Generative AI LLM Transformers