Transformer Architecture

10 items

RESEARCHarXiv CS.AI·4/16/2026

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Diese Arbeit analysiert rigoros, wie numerische Instabilität durch endliche Präzision zu Unvorhersehbarkeit in LLMs führt, ein kritisches Zuverlässigkeitsproblem in agentischen Workflows. Sie beschreibt die Ausbreitung von Rundungsfehlern und identifiziert einen chaotischen „Lawineneffekt“ in frühen Schichten sowie universelle, skalenabhängige chaotische Verhaltensweisen.

Transformer Architecture LLMs chaos theory AI reliability

ARTICLEDEV.to AI·vor 18T

Understanding Transformer Architecture in 2026 (SilentRecon Deep Dive)

Der Artikel "SilentRecon Deep Dive" beleuchtet die Transformer-Architektur und erklärt, wie sie RNNs und LSTMs durch parallele Verarbeitung und Aufmerksamkeit übertraf. Dies führte zu Skalierbarkeit, schnellerem Training, tieferem Kontextverständnis und Echtzeit-Inferenz, wodurch sie zur Standard-Intelligenzschicht für Cybersicherheit und Automatisierung wurden.

Transformer Architecture cybersecurity deep learning learning

RESEARCHarXiv CS.LG·4/20/2026

Sequential KV Cache Compression via Probabilistic Language Tries: Beyond the Per-Vector Shannon Limit

Diese Forschung stellt die sequentielle KV-Kompression vor, eine neuartige zweischichtige Architektur für Transformer-Schlüssel-Wert-Caches, die die pro-Vektor-Shannon-Grenze übertrifft. Sie nutzt die sequentielle Natur von KV-Cache-Tokens mittels probabilistischer Präfix-Deduplizierung und prädiktiver Delta-Kodierung für effizientere Kompression.

Transformer Architecture AI models LLMs data compression

RESEARCHarXiv CS.LG·4/20/2026

Hallucination as Trajectory Commitment: Causal Evidence for Asymmetric Attractor Dynamics in Transformer Generation

Die Arbeit liefert kausale Belege dafür, dass Halluzinationen in autoregressiven Sprachmodellen ein frühes Trajektorienengagement sind, das durch asymmetrische Attraktordynamiken bestimmt wird. Die Forschung zeigt, dass sich faktische und halluzinierte Trajektorien bereits beim ersten Token trennen, und die Korrektur eines halluzinierten Pfades anhaltende Intervention erfordert, während Korruption leichter ist.

Transformer Architecture LLMs hallucination model dynamics

ARTICLEDEV.to AI·4/24/2026

Layer Normalization — Deep Dive + Problem: Largest Connected Region

Dieser Inhalt bietet einen tiefen Einblick in die Layer-Normalisierung, eine entscheidende Komponente der Transformer-Architektur. Er beschreibt ihre Bedeutung für die Stabilisierung des Trainings und die Verbesserung der Leistung von Large Language Models (LLMs), die ihren Ursprung im Papier „Attention is All You Need“ hat.

Transformer Architecture LLMs deep learning NLP

ARTICLEDEV.to AI·vor 22T

How Gemma 4's Per-Layer Embeddings Actually Work — And Why E2B Punches Above 2B

Dieser Artikel erklärt Per-Layer Embeddings (PLE), einen Mechanismus in Gemma 4 E2B, der es dem Modell ermöglicht, trotz seiner 2B Parameter größere Modelle zu übertreffen. Er beschreibt den genauen Mechanismus, vergleicht E2Bs Benchmarks und diskutiert die Auswirkungen von PLE auf das Verständnis von LLMs, Quantisierung und Bereitstellung.

Transformer Architecture Gemma 4 E2B Per-Layer Embeddings

ARTICLEDEV.to AI·4/8/2026

Gemma 4: Byte for byte, the most capable open models

O modelo Gemma 4, anunciado pela DeepMind, representa um marco significativo em LLMs de código aberto. Ele emprega uma arquitetura baseada em transformer com 7 bilhões de parâmetros e um design eficiente que utiliza mecanismos de autoatenção hierárquicos para otimizar sua capacidade.

Transformer Architecture LLMs DeepMind Gemma 4

RESEARCHarXiv CS.AI·vor 11T

The Cognitive Categorical Transformer: Category-Theoretic Inductive Biases for Language Modeling

Der Cognitive Categorical Transformer (CCT) ist eine 306M-Parameter-Architektur, die einen vortrainierten GPT-2 Small Backbone mit kognitiv fundierten Komponenten aus der Kategorientheorie und Inspirationen aus der Kognitionswissenschaft erweitert. Er erreichte eine relative Reduktion der Perplexität um 12 % auf WikiText-103 im Vergleich zu einer identisch feingetunten GPT-2 Small Baseline, wobei 84 % der Verbesserung dem GT-Full-Simplizial-Nachrichten-Passing zugeschrieben werden.

Transformer Architecture cognitive science GPT-2 Category Theory

RESEARCHarXiv CS.AI·4/7/2026

Structural Rigidity and the 57-Token Predictive Window: A Physical Framework for Inference-Layer Governability in Large Language Models

Este artigo introduz uma nova estrutura de governança baseada em energia para LLMs, que conecta a dinâmica de inferência de transformers a modelos de satisfação de restrições, desafiando métodos atuais de segurança de IA. A pesquisa identifica uma janela de pré-comprometimento de 57 tokens em Phi-3-mini-4k-instruct, demonstrando que tais sinais existem, mas são específicos do modelo, tarefa e configuração, e propõe uma taxonomia de comportamento de inferência.

Transformer Architecture Inference Dynamics energy-based models Pre-commitment Signals

ARTICLEDEV.to AI·4/15/2026

Gemma 4: Byte for byte, the most capable open models

Gemma 4 ist ein hochleistungsfähiges und parameter-effizientes offenes Sprachmodell, das Spitzenleistungen erzielt. Es nutzt eine Transformer-Architektur mit Innovationen wie Sparse Attention und FFN-Optimierungen, um Rechenkosten zu senken und die Inferenzgeschwindigkeit zu erhöhen.

Parameter efficiency Transformer Architecture Gemma 4 sparse attention