← heapsort-ai

Transformer Architecture

10 items

RESEARCHarXiv CS.AI·4/16/2026

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Diese Arbeit analysiert rigoros, wie numerische Instabilität durch endliche Präzision zu Unvorhersehbarkeit in LLMs führt, ein kritisches Zuverlässigkeitsproblem in agentischen Workflows. Sie beschreibt die Ausbreitung von Rundungsfehlern und identifiziert einen chaotischen „Lawineneffekt“ in frühen Schichten sowie universelle, skalenabhängige chaotische Verhaltensweisen.

33
ARTICLEDEV.to AI·vor 18T

Understanding Transformer Architecture in 2026 (SilentRecon Deep Dive)

Der Artikel "SilentRecon Deep Dive" beleuchtet die Transformer-Architektur und erklärt, wie sie RNNs und LSTMs durch parallele Verarbeitung und Aufmerksamkeit übertraf. Dies führte zu Skalierbarkeit, schnellerem Training, tieferem Kontextverständnis und Echtzeit-Inferenz, wodurch sie zur Standard-Intelligenzschicht für Cybersicherheit und Automatisierung wurden.

29
RESEARCHarXiv CS.LG·4/20/2026

Sequential KV Cache Compression via Probabilistic Language Tries: Beyond the Per-Vector Shannon Limit

Diese Forschung stellt die sequentielle KV-Kompression vor, eine neuartige zweischichtige Architektur für Transformer-Schlüssel-Wert-Caches, die die pro-Vektor-Shannon-Grenze übertrifft. Sie nutzt die sequentielle Natur von KV-Cache-Tokens mittels probabilistischer Präfix-Deduplizierung und prädiktiver Delta-Kodierung für effizientere Kompression.

27
RESEARCHarXiv CS.LG·4/20/2026

Hallucination as Trajectory Commitment: Causal Evidence for Asymmetric Attractor Dynamics in Transformer Generation

Die Arbeit liefert kausale Belege dafür, dass Halluzinationen in autoregressiven Sprachmodellen ein frühes Trajektorienengagement sind, das durch asymmetrische Attraktordynamiken bestimmt wird. Die Forschung zeigt, dass sich faktische und halluzinierte Trajektorien bereits beim ersten Token trennen, und die Korrektur eines halluzinierten Pfades anhaltende Intervention erfordert, während Korruption leichter ist.

27
ARTICLEDEV.to AI·vor 22T

How Gemma 4's Per-Layer Embeddings Actually Work — And Why E2B Punches Above 2B

Dieser Artikel erklärt Per-Layer Embeddings (PLE), einen Mechanismus in Gemma 4 E2B, der es dem Modell ermöglicht, trotz seiner 2B Parameter größere Modelle zu übertreffen. Er beschreibt den genauen Mechanismus, vergleicht E2Bs Benchmarks und diskutiert die Auswirkungen von PLE auf das Verständnis von LLMs, Quantisierung und Bereitstellung.

27
RESEARCHarXiv CS.AI·vor 11T

The Cognitive Categorical Transformer: Category-Theoretic Inductive Biases for Language Modeling

Der Cognitive Categorical Transformer (CCT) ist eine 306M-Parameter-Architektur, die einen vortrainierten GPT-2 Small Backbone mit kognitiv fundierten Komponenten aus der Kategorientheorie und Inspirationen aus der Kognitionswissenschaft erweitert. Er erreichte eine relative Reduktion der Perplexität um 12 % auf WikiText-103 im Vergleich zu einer identisch feingetunten GPT-2 Small Baseline, wobei 84 % der Verbesserung dem GT-Full-Simplizial-Nachrichten-Passing zugeschrieben werden.

27
RESEARCHarXiv CS.AI·4/7/2026

Structural Rigidity and the 57-Token Predictive Window: A Physical Framework for Inference-Layer Governability in Large Language Models

Este artigo introduz uma nova estrutura de governança baseada em energia para LLMs, que conecta a dinâmica de inferência de transformers a modelos de satisfação de restrições, desafiando métodos atuais de segurança de IA. A pesquisa identifica uma janela de pré-comprometimento de 57 tokens em Phi-3-mini-4k-instruct, demonstrando que tais sinais existem, mas são específicos do modelo, tarefa e configuração, e propõe uma taxonomia de comportamento de inferência.

27