← heapsort-ai

Language modeling

5 items

RESEARCH↑ trendingReddit r/MachineLearning·4/13/2026

I scaled a pure Spiking Neural Network (SNN) to 1.088B parameters from scratch. Ran out of budget, but here is what I found [R]

Ein 18-jähriger Indie-Entwickler skalierte ein reines Spiking Neural Network (SNN) von Grund auf zu 1,088 Milliarden Parametern für Sprachmodellierung und erreichte trotz allgemeiner Annahmen über vanishing gradients eine Verlustkonvergenz. Zu den Haupterkenntnissen gehören die Beibehaltung einer 93%igen Sparsamkeit und das unerwartete Auftauchen strukturell korrekter russischer Texte, obwohl das Experiment aus Budgetgründen abgebrochen wurde.

42
RESEARCHarXiv CS.LG·vor 5T

Do Transformers Need Three Projections? Systematic Study of QKV Variants

Diese Forschung untersucht systematisch Varianten der Query-, Key- und Value- (QKV) Aufmerksamkeitsformulierung in Transformatoren, einschließlich geteilter Key-Value-, Query-Key- und Einzelprojektionen. Experimente in synthetischen Aufgaben, Vision und Sprachmodellierung zeigen, dass diese alternativen Formulierungen gleich gut oder manchmal besser als Standard-QKV-Transformatoren abschneiden, wobei die Q-K=V-Teilung eine erhebliche KV-Cache-Reduzierung in der Sprachmodellierung bietet.

29
RESEARCHarXiv CS.LG·4/9/2026

Probabilistic Language Tries: A Unified Framework for Compression, Decision Policies, and Execution Reuse

Este artigo apresenta Probabilistic Language Tries (PLTs), uma representação unificada que explicita a estrutura de prefixo de qualquer modelo generativo sobre sequências. PLTs atuam como compressor lossless ideal, representação de política para problemas de decisão sequencial (como jogos e robótica) e índice de memoização para reuso de execução, com um teorema chave sobre caching guiado por prior.

27
RESEARCHarXiv CS.AI·4/17/2026

Equifinality in Mixture of Experts: Routing Topology Does Not Determine Language Modeling Quality

Diese Arbeit untersucht, ob die Routing-Topologie tatsächlich die Qualität der Sprachmodellierung in Mixture-of-Experts (MoE)-Architekturen bestimmt. Die Autoren fanden, dass verschiedene Routing-Varianten, einschließlich einer neuartigen auf Kosinus-Ähnlichkeit basierenden, zu statistisch äquivalenter asymptotischer Perplexität führen, was darauf hindeutet, dass das Routing-Design einen geringeren Einfluss auf die Endqualität hat als bisher angenommen.

27
RESEARCHarXiv CS.AI·vor 11T

The Cognitive Categorical Transformer: Category-Theoretic Inductive Biases for Language Modeling

Der Cognitive Categorical Transformer (CCT) ist eine 306M-Parameter-Architektur, die einen vortrainierten GPT-2 Small Backbone mit kognitiv fundierten Komponenten aus der Kategorientheorie und Inspirationen aus der Kognitionswissenschaft erweitert. Er erreichte eine relative Reduktion der Perplexität um 12 % auf WikiText-103 im Vergleich zu einer identisch feingetunten GPT-2 Small Baseline, wobei 84 % der Verbesserung dem GT-Full-Simplizial-Nachrichten-Passing zugeschrieben werden.

27