← heapsort-ai

Language modeling

5 items

RESEARCH↑ trendingReddit r/MachineLearning·13/04/2026

I scaled a pure Spiking Neural Network (SNN) to 1.088B parameters from scratch. Ran out of budget, but here is what I found [R]

Un développeur indépendant de 18 ans a mis à l'échelle un Réseau Neuronal à Impulsions (SNN) pur jusqu'à 1,088 milliard de paramètres à partir de zéro pour la modélisation linguistique, obtenant la convergence de la perte malgré les problèmes de gradients évanescents. Les découvertes incluent une parcimonie massive de 93% et l'émergence inattendue de texte russe structurellement correct, bien que l'expérience ait été écourtée faute de budget.

42
RESEARCHarXiv CS.LG·il y a 5j

Do Transformers Need Three Projections? Systematic Study of QKV Variants

Cette recherche évalue systématiquement des variantes de la formulation d'attention QKV (Query, Key, Value) dans les Transformers, incluant le partage des projections clé-valeur, query-clé et unique. Des expériences sur des tâches synthétiques, de vision et de modélisation linguistique montrent que ces formulations alternatives sont aussi performantes, voire parfois meilleures, que les Transformers QKV standards, avec un partage Q-K=V réduisant significativement le cache KV en modélisation linguistique.

29
RESEARCHarXiv CS.LG·09/04/2026

Probabilistic Language Tries: A Unified Framework for Compression, Decision Policies, and Execution Reuse

Este artigo apresenta Probabilistic Language Tries (PLTs), uma representação unificada que explicita a estrutura de prefixo de qualquer modelo generativo sobre sequências. PLTs atuam como compressor lossless ideal, representação de política para problemas de decisão sequencial (como jogos e robótica) e índice de memoização para reuso de execução, com um teorema chave sobre caching guiado por prior.

27
RESEARCHarXiv CS.AI·17/04/2026

Equifinality in Mixture of Experts: Routing Topology Does Not Determine Language Modeling Quality

Cet article examine si la topologie de routage détermine réellement la qualité de la modélisation linguistique dans les architectures Mixture-of-Experts (MoE). Les auteurs ont constaté que différentes variantes de routage, y compris une nouvelle basée sur la similarité cosinus, entraînent une perplexité asymptotique statistiquement équivalente, suggérant que la conception du routage a un impact moindre sur la qualité finale qu'on ne le pensait.

27
RESEARCHarXiv CS.AI·il y a 11j

The Cognitive Categorical Transformer: Category-Theoretic Inductive Biases for Language Modeling

Le Cognitive Categorical Transformer (CCT) est une architecture de 306M de paramètres qui augmente un GPT-2 Small pré-entraîné avec des composants issus de la théorie des catégories et des inspirations des sciences cognitives. Il a obtenu une réduction relative de 12% de la perplexité sur WikiText-103 par rapport à une base de référence GPT-2 Small finement ajustée, 84% de l'amélioration étant attribuée au passage de messages simpliciaux GT-Full.

27