← heapsort-ai

Transformer Architecture

10 items

RESEARCHarXiv CS.AI·16/04/2026

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Cet article analyse rigoureusement comment l'instabilité numérique due à la précision finie entraîne l'imprévisibilité des LLM, un problème de fiabilité critique dans les flux de travail agentiques. Il détaille la propagation des erreurs d'arrondi, identifiant un « effet avalanche » chaotique dans les premières couches et des comportements chaotiques universels dépendants de l'échelle.

33
ARTICLEDEV.to AI·il y a 18j

Understanding Transformer Architecture in 2026 (SilentRecon Deep Dive)

L'article "SilentRecon Deep Dive" explore l'architecture Transformer, expliquant comment elle a surpassé les RNN et les LSTM en permettant le traitement parallèle et l'attention. Cela a entraîné une évolutivité, une formation plus rapide, une compréhension contextuelle approfondie et une inférence en temps réel, en faisant la couche d'intelligence par défaut pour la cybersécurité et l'automatisation.

29
RESEARCHarXiv CS.LG·20/04/2026

Sequential KV Cache Compression via Probabilistic Language Tries: Beyond the Per-Vector Shannon Limit

Cette recherche présente la compression séquentielle de KV, une nouvelle architecture à deux couches pour les caches clé-valeur des transformateurs qui dépasse la limite de Shannon par vecteur. Elle exploite la nature séquentielle des tokens de cache KV, utilisant la déduplication de préfixes probabiliste et le codage delta prédictif pour une compression plus efficace.

27
RESEARCHarXiv CS.LG·20/04/2026

Hallucination as Trajectory Commitment: Causal Evidence for Asymmetric Attractor Dynamics in Transformer Generation

Cet article présente des preuves causales que l'hallucination dans les modèles de langage autorégressifs est un engagement précoce de trajectoire régi par des dynamiques d'attracteur asymétriques. La recherche indique que les trajectoires factuelles et hallucinées divergent dès le premier jeton, et que la correction d'une trajectoire hallucinatoire nécessite une intervention soutenue, tandis que la corruption est plus facile.

27
ARTICLEDEV.to AI·il y a 22j

How Gemma 4's Per-Layer Embeddings Actually Work — And Why E2B Punches Above 2B

Cet article explique les Embeddings par Couche (PLE), un mécanisme du Gemma 4 E2B qui lui permet de surpasser des modèles plus grands malgré son nombre de paramètres de 2B. Il détaille le mécanisme exact, compare les benchmarks de l'E2B et discute de l'impact des PLE sur la compréhension des LLM, la quantification et le déploiement.

27
RESEARCHarXiv CS.AI·il y a 11j

The Cognitive Categorical Transformer: Category-Theoretic Inductive Biases for Language Modeling

Le Cognitive Categorical Transformer (CCT) est une architecture de 306M de paramètres qui augmente un GPT-2 Small pré-entraîné avec des composants issus de la théorie des catégories et des inspirations des sciences cognitives. Il a obtenu une réduction relative de 12% de la perplexité sur WikiText-103 par rapport à une base de référence GPT-2 Small finement ajustée, 84% de l'amélioration étant attribuée au passage de messages simpliciaux GT-Full.

27
RESEARCHarXiv CS.AI·07/04/2026

Structural Rigidity and the 57-Token Predictive Window: A Physical Framework for Inference-Layer Governability in Large Language Models

Este artigo introduz uma nova estrutura de governança baseada em energia para LLMs, que conecta a dinâmica de inferência de transformers a modelos de satisfação de restrições, desafiando métodos atuais de segurança de IA. A pesquisa identifica uma janela de pré-comprometimento de 57 tokens em Phi-3-mini-4k-instruct, demonstrando que tais sinais existem, mas são específicos do modelo, tarefa e configuração, e propõe uma taxonomia de comportamento de inferência.

27