Language modeling

5 items

RESEARCH↑ trendingReddit r/MachineLearning·13/04/2026

I scaled a pure Spiking Neural Network (SNN) to 1.088B parameters from scratch. Ran out of budget, but here is what I found [R]

Um desenvolvedor independente de 18 anos escalou uma Rede Neural de Spiking (SNN) pura para 1.088 bilhões de parâmetros do zero para modelagem de linguagem, conseguindo a convergência da perda apesar das expectativas de falha por gradientes evanescentes. Ele observou uma esparsidade massiva de 93% e a emergência inesperada de texto russo estruturalmente correto, antes de o experimento ser interrompido por falta de orçamento.

Spiking Neural Networks AI scaling large language models Language modeling

RESEARCHarXiv CS.LG·5d atrás

Do Transformers Need Three Projections? Systematic Study of QKV Variants

Este estudo avalia sistematicamente variantes da formulação de atenção QKV (Query, Key, Value) em Transformers, incluindo projeções de chave-valor, query-chave e únicas. Experimentos em tarefas sintéticas, de visão e modelagem de linguagem mostram que essas formulações alternativas performam tão bem ou melhor que Transformers QKV padrão, com a partilha Q-K=V reduzindo significativamente o cache KV na modelagem de linguagem.

QKV computer vision attention mechanisms Language modeling

RESEARCHarXiv CS.LG·09/04/2026

Probabilistic Language Tries: A Unified Framework for Compression, Decision Policies, and Execution Reuse

Este artigo apresenta Probabilistic Language Tries (PLTs), uma representação unificada que explicita a estrutura de prefixo de qualquer modelo generativo sobre sequências. PLTs atuam como compressor lossless ideal, representação de política para problemas de decisão sequencial (como jogos e robótica) e índice de memoização para reuso de execução, com um teorema chave sobre caching guiado por prior.

sequence generation reinforcement learning data compression Probabilistic Models

RESEARCHarXiv CS.AI·17/04/2026

Equifinality in Mixture of Experts: Routing Topology Does Not Determine Language Modeling Quality

Este artigo investiga se a topologia de roteamento realmente determina a qualidade da modelagem de linguagem em arquiteturas Mixture-of-Experts (MoE). Os autores descobriram que diferentes variantes de roteamento, incluindo uma nova baseada em similaridade de cosseno, resultam em perplexidade assintótica estatisticamente equivalente, sugerindo que o design do roteamento tem um impacto menor do que se pensava na qualidade final.

neural networks routing algorithms Mixture of Experts Language modeling

RESEARCHarXiv CS.AI·11d atrás

The Cognitive Categorical Transformer: Category-Theoretic Inductive Biases for Language Modeling

O Cognitive Categorical Transformer (CCT) é uma arquitetura de 306M parâmetros que aumenta um GPT-2 Small pré-treinado com componentes baseados na teoria das categorias e inspirações da ciência cognitiva. Ele alcançou uma redução relativa de 12% na perplexidade no WikiText-103 em comparação com um GPT-2 Small de linha de base, com 84% da melhoria atribuída à passagem de mensagens simplificadas GT-Full.

Transformer Architecture cognitive science GPT-2 Category Theory