Transformer Architecture

10 items

RESEARCHarXiv CS.AI·16/04/2026

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Cet article analyse rigoureusement comment l'instabilité numérique due à la précision finie entraîne l'imprévisibilité des LLM, un problème de fiabilité critique dans les flux de travail agentiques. Il détaille la propagation des erreurs d'arrondi, identifiant un « effet avalanche » chaotique dans les premières couches et des comportements chaotiques universels dépendants de l'échelle.

Transformer Architecture LLMs chaos theory AI reliability

ARTICLEDEV.to AI·il y a 18j

Understanding Transformer Architecture in 2026 (SilentRecon Deep Dive)

L'article "SilentRecon Deep Dive" explore l'architecture Transformer, expliquant comment elle a surpassé les RNN et les LSTM en permettant le traitement parallèle et l'attention. Cela a entraîné une évolutivité, une formation plus rapide, une compréhension contextuelle approfondie et une inférence en temps réel, en faisant la couche d'intelligence par défaut pour la cybersécurité et l'automatisation.

Transformer Architecture cybersecurity deep learning learning

RESEARCHarXiv CS.LG·20/04/2026

Sequential KV Cache Compression via Probabilistic Language Tries: Beyond the Per-Vector Shannon Limit

Cette recherche présente la compression séquentielle de KV, une nouvelle architecture à deux couches pour les caches clé-valeur des transformateurs qui dépasse la limite de Shannon par vecteur. Elle exploite la nature séquentielle des tokens de cache KV, utilisant la déduplication de préfixes probabiliste et le codage delta prédictif pour une compression plus efficace.

Transformer Architecture AI models LLMs data compression

RESEARCHarXiv CS.LG·20/04/2026

Hallucination as Trajectory Commitment: Causal Evidence for Asymmetric Attractor Dynamics in Transformer Generation

Cet article présente des preuves causales que l'hallucination dans les modèles de langage autorégressifs est un engagement précoce de trajectoire régi par des dynamiques d'attracteur asymétriques. La recherche indique que les trajectoires factuelles et hallucinées divergent dès le premier jeton, et que la correction d'une trajectoire hallucinatoire nécessite une intervention soutenue, tandis que la corruption est plus facile.

Transformer Architecture LLMs hallucination model dynamics

ARTICLEDEV.to AI·24/04/2026

Layer Normalization — Deep Dive + Problem: Largest Connected Region

Ce contenu propose une exploration approfondie de la Normalisation de Couche, un composant essentiel de l'Architecture Transformer. Il détaille son importance pour stabiliser l'entraînement et améliorer les performances des grands modèles linguistiques (LLM), tirant son origine du document "Attention is All You Need".

Transformer Architecture LLMs deep learning NLP

ARTICLEDEV.to AI·il y a 22j

How Gemma 4's Per-Layer Embeddings Actually Work — And Why E2B Punches Above 2B

Cet article explique les Embeddings par Couche (PLE), un mécanisme du Gemma 4 E2B qui lui permet de surpasser des modèles plus grands malgré son nombre de paramètres de 2B. Il détaille le mécanisme exact, compare les benchmarks de l'E2B et discute de l'impact des PLE sur la compréhension des LLM, la quantification et le déploiement.

Transformer Architecture Gemma 4 E2B Per-Layer Embeddings

ARTICLEDEV.to AI·08/04/2026

Gemma 4: Byte for byte, the most capable open models

O modelo Gemma 4, anunciado pela DeepMind, representa um marco significativo em LLMs de código aberto. Ele emprega uma arquitetura baseada em transformer com 7 bilhões de parâmetros e um design eficiente que utiliza mecanismos de autoatenção hierárquicos para otimizar sua capacidade.

Transformer Architecture LLMs DeepMind Gemma 4

RESEARCHarXiv CS.AI·il y a 11j

The Cognitive Categorical Transformer: Category-Theoretic Inductive Biases for Language Modeling

Le Cognitive Categorical Transformer (CCT) est une architecture de 306M de paramètres qui augmente un GPT-2 Small pré-entraîné avec des composants issus de la théorie des catégories et des inspirations des sciences cognitives. Il a obtenu une réduction relative de 12% de la perplexité sur WikiText-103 par rapport à une base de référence GPT-2 Small finement ajustée, 84% de l'amélioration étant attribuée au passage de messages simpliciaux GT-Full.

Transformer Architecture cognitive science GPT-2 Category Theory

RESEARCHarXiv CS.AI·07/04/2026

Structural Rigidity and the 57-Token Predictive Window: A Physical Framework for Inference-Layer Governability in Large Language Models

Este artigo introduz uma nova estrutura de governança baseada em energia para LLMs, que conecta a dinâmica de inferência de transformers a modelos de satisfação de restrições, desafiando métodos atuais de segurança de IA. A pesquisa identifica uma janela de pré-comprometimento de 57 tokens em Phi-3-mini-4k-instruct, demonstrando que tais sinais existem, mas são específicos do modelo, tarefa e configuração, e propõe uma taxonomia de comportamento de inferência.

Transformer Architecture Inference Dynamics energy-based models Pre-commitment Signals

ARTICLEDEV.to AI·15/04/2026

Gemma 4: Byte for byte, the most capable open models

Gemma 4 est un modèle de langage ouvert très performant et économe en paramètres, atteignant des performances de pointe. Il utilise une architecture de transformateur avec des innovations telles que l'attention sparse et les optimisations FFN pour réduire les coûts de calcul et accélérer l'inférence.

Parameter efficiency Transformer Architecture Gemma 4 sparse attention