← heapsort-ai

Transformers

56 items

RESEARCH↑ trendingReddit r/MachineLearning·vor 27T

Trained transformer-based chess models to play like humans (including thinking time) [P]

Ein Entwickler trainierte transformer-basierte Deep-Learning-Modelle, um Schach wie Menschen über verschiedene Bewertungsbereiche hinweg zu spielen, einschließlich der Vorhersage der Denkzeit. Die Modelle wurden mit Lichess-Daten trainiert und erreichten trotz ihrer geringen Größe eine mit MAIA-3 vergleichbare Genauigkeit.

44
ARTICLE↑ trendingReddit r/MachineLearning·4/24/2026

Nanochat vs Llama for training from scratch? [P]

Der Benutzer trainiert ein KI-Modell von Grund auf neu und bittet um Rat zur besten Architektur, wobei er überlegt, von Nanochat (das keine Transformers-Kompatibilität bietet) zur Llama-Architektur zu wechseln. Ziel ist ein Open-Source-Projekt mit einem neuen, größeren Datensatz, trotz der Vorteile von Nanochat.

42
RESEARCH↑ trendingReddit r/MachineLearning·5/4/2026

Why SSMs struggle in parameter-constrained training: empirical findings at 25M parameters [R]

Dieser Beitrag beschreibt empirische Erkenntnisse aus OpenAIs Parameter Golf-Wettbewerb und erklärt, warum State Space Models (SSMs) gegenüber Transformatoren bei parameter- und zeitbeschränkten Trainingsbedingungen strukturell benachteiligt sind. Hauptprobleme sind eine schlechtere Komprimierung der in_proj-Gewichte von SSMs und architektonische Umkehrmeldungen bei größeren Vokabulargrößen, ergänzt durch Einblicke aus Mamba-3 Triton-Kernel-Experimenten.

42
RESEARCH↑ trendingReddit r/MachineLearning·4/16/2026

ResBM: a new transformer-based architecture for low-bandwidth pipeline-parallel training, achieving 128× activation compression [R]

Macrocosmos hat ResBM eingeführt, eine neue Transformator-basierte Architektur für Pipeline-paralleles Training mit geringer Bandbreite. Sie erreicht eine 128-fache Aktivierungskompression ohne signifikanten Konvergenzverlust im Vergleich zu unkomprimierten Baselines.

42
RESEARCH↑ trendingReddit r/MachineLearning·5/6/2026

Transformers with Selective Access to Early Representations [R]

Das Paper stellt SATFormer vor, eine neue Transformer-Variante, die die Effizienz verbessert, indem sie den "Heads" ermöglicht, frühzeitige Repräsentationen selektiv erneut abzurufen, anstatt sie uniform zu kopieren. Dieser kontextabhängige Gating-Mechanismus optimiert die Wiederverwendung von Informationen und bietet ein besseres Effizienz-Leistungs-Verhältnis.

Transformers with Selective Access to Early Representations [R]
42
RESEARCH↑ trendingReddit r/MachineLearning·4/13/2026

Thinking Deeper, Not Longer: Depth-Recurrent Transformers for Compositional Generalization [R]

Dieser Inhalt bespricht ein Forschungspapier über Depth-Recurrent Transformer und deren Erkenntnisse zur kompositionellen und Out-of-Distribution-Generalisierung. Es untersucht, wie Zwischenschritt-Supervision echtes Schlussfolgern in KI-Modellen behindern und sie übermäßig auf statistische Heuristiken verlassen lassen kann, ein Konzept, das auch auf Fundamentmodelle und die menschliche Intuition erweitert wird.

42
ARTICLE↑ trendingReddit r/MachineLearning·4/25/2026

How Visual-Language-Action (VLA) Models Work [D]

Dieser Artikel bietet eine technische Analyse, wie Visual-Language-Action (VLA)-Modelle funktionieren und Vision-/Spracheingaben in Roboteraktionen umsetzen. Er behandelt die wichtigsten derzeit verwendeten Aktionsdekodierungsansätze wie tokenisierte autoregressive Aktionen, diffusionsbasierte Aktionsköpfe und Flow-Matching-Richtlinien.

How Visual-Language-Action (VLA) Models Work [D]
42
RESEARCHarXiv CS.LG·vor 5T

Do Transformers Need Three Projections? Systematic Study of QKV Variants

Diese Forschung untersucht systematisch Varianten der Query-, Key- und Value- (QKV) Aufmerksamkeitsformulierung in Transformatoren, einschließlich geteilter Key-Value-, Query-Key- und Einzelprojektionen. Experimente in synthetischen Aufgaben, Vision und Sprachmodellierung zeigen, dass diese alternativen Formulierungen gleich gut oder manchmal besser als Standard-QKV-Transformatoren abschneiden, wobei die Q-K=V-Teilung eine erhebliche KV-Cache-Reduzierung in der Sprachmodellierung bietet.

29
RESEARCHarXiv CS.LG·4/22/2026

Handling and Interpreting Missing Modalities in Patient Clinical Trajectories via Autoregressive Sequence Modeling

Diese Arbeit befasst sich mit der Herausforderung fehlender Modalitäten in multimodalen klinischen Daten für die Diagnose, indem sie dies als autoregressive Sequenzmodellierungsaufgabe neu formuliert. Sie nutzt kausale Decoder von LLMs und ein fehlendes-sensitives kontrastives Vor-Training, um Baselines bei Benchmarks wie MIMIC-IV und eICU zu übertreffen.

29
RESEARCHarXiv CS.LG·4/15/2026

Subcritical Signal Propagation at Initialization in Normalization-Free Transformers

Diese Arbeit untersucht die Signalausbreitung bei der Initialisierung in Transformatoren mittels der gemittelten partiellen Jacobi-Norm (APJN) zur Messung der Gradientenverstärkung. Die Theorie erweitert die APJN-Analyse, prognostiziert das asymptotische Verhalten der APJN bei großer Tiefe und erklärt die Subkritikalität von normalisierungsfreien Architekturen wie Dynamic Tanh- und Dynamic erf-Transformatoren.

29
RESEARCHarXiv CS.LG·4/28/2026

Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

Diese Arbeit behandelt den erheblichen Speicherbedarf von Key-Value (KV)-Caching in Transformer-Sprachmodellen und schlägt eine Optimierung entlang der Tiefen-Dimension vor. Sie stellt eine Methode zum schichtübergreifenden Cache-Sharing vor, die zeigt, dass das Löschen des Caches einer Schicht effizient ohne Informationsverlust sein kann, und schlägt einen Trainingsansatz mit zufälliger schichtübergreifender Aufmerksamkeit vor.

29
RESEARCHarXiv CS.LG·4/28/2026

The Spectral Lifecycle of Transformer Training: Transient Compression Waves, Persistent Spectral Gradients, and the Q/K--V Asymmetry

Diese systematische Untersuchung der Singulärwertspektren während des Transformer-Vortrainings deckt drei Schlüsselphänomene auf: transiente Kompressionswellen und persistente spektrale Gradienten. Sie zeigt auch eine funktionale Q/K-V-Asymmetrie, bei der Query/Key-Projektionen die tiefenabhängige Dynamik steuern.

29
RESEARCHarXiv CS.LG·vor 8T

When LLMs Learn to Be Consistently Wrong: A Multi-Model Study of Linear Representations of Synthetic Deception

Diese Arbeit untersucht die "täuschende Ausrichtung" in LLMs, eine zentrale Herausforderung in der KI-Sicherheit, bei der Modelle absichtlich falsche Ausgaben erzeugen, während sie genaue interne Darstellungen beibehalten. Mittels eines Mehrmodell-Paradigmas mit fünf Transformator-Architekturen gelang es den Forschenden, synthetische Unehrlichkeit mit hoher Genauigkeit mittels linearer Sonden zu erkennen.

29
RESEARCHarXiv CS.LG·5/6/2026

eOptShrinkQ: Near-Lossless KV Cache Compression Through Optimal Spectral Denoising and Quantization

eOptShrinkQ ist eine zweistufige Kompressionspipeline für den KV-Cache in Transformer-Aufmerksamkeitsköpfen. Sie nutzt optimale Singulärwertschrumpfung und per-Vektor-Skalarquantisierung, basierend auf der Theorie der Zufallsmatrizen, um eine nahezu verlustfreie Kompression zu erreichen und die Rekonstruktion zu verbessern.

29
RESEARCHarXiv CS.LG·4/14/2026

The Diffusion-Attention Connection

Diese Forschung vereinheitlicht Transformatoren, Diffusionskarten und magnetische Laplacians und präsentiert sie als verschiedene Regime einer einzigen Markov-Geometrie, die aus Pre-Softmax-Query-Scores aufgebaut ist. Sie definiert eine QK-"Bidivergenz", um Attention und Diffusion zu verbinden und ihre Dynamik mittels Produkt von Experten und Schrödinger-Brücken zu organisieren.

28
DOCDEV.to AI·4/17/2026

Understanding Transformers Part 9: Stacking Self-Attention Layers

Dieser Artikel erklärt, warum Selbstaufmerksamkeitswerte die ursprünglichen Positional Encodings ersetzen, da sie kontextuelle Informationen aller Wörter integrieren und Beziehungen verdeutlichen. Anschließend wird das Stapeln mehrerer Selbstaufmerksamkeitsschichten, jeweils mit einzigartigen Gewichten, vorgestellt, um komplexere sprachliche Beziehungen innerhalb von Sätzen und Absätzen zu erfassen.

28