← heapsort-ai

Language modeling

5 items

RESEARCH↑ trendingReddit r/MachineLearning·13/4/2026

I scaled a pure Spiking Neural Network (SNN) to 1.088B parameters from scratch. Ran out of budget, but here is what I found [R]

Un desarrollador independiente de 18 años escaló una Red Neuronal de Spiking (SNN) pura a 1.088 mil millones de parámetros desde cero para el modelado de lenguaje, logrando la convergencia de la pérdida a pesar de los problemas de gradientes evanescentes. Observó una escasez masiva del 93% y la aparición inesperada de texto ruso estructuralmente correcto, aunque el experimento fue interrumpido por falta de presupuesto.

42
RESEARCHarXiv CS.LG·hace 5d

Do Transformers Need Three Projections? Systematic Study of QKV Variants

Esta investigación evalúa sistemáticamente las variantes de la formulación de atención QKV (Query, Key, Value) en Transformers, incluyendo proyecciones de clave-valor, query-clave y únicas. Los experimentos en tareas sintéticas, de visión y modelado de lenguaje demuestran que estas formulaciones alternativas rinden igual o incluso mejor que los Transformers QKV estándar, con la compartición Q-K=V ofreciendo una reducción significativa del caché KV en el modelado de lenguaje.

29
RESEARCHarXiv CS.LG·9/4/2026

Probabilistic Language Tries: A Unified Framework for Compression, Decision Policies, and Execution Reuse

Este artigo apresenta Probabilistic Language Tries (PLTs), uma representação unificada que explicita a estrutura de prefixo de qualquer modelo generativo sobre sequências. PLTs atuam como compressor lossless ideal, representação de política para problemas de decisão sequencial (como jogos e robótica) e índice de memoização para reuso de execução, com um teorema chave sobre caching guiado por prior.

27
RESEARCHarXiv CS.AI·17/4/2026

Equifinality in Mixture of Experts: Routing Topology Does Not Determine Language Modeling Quality

Este artículo investiga si la topología de enrutamiento realmente determina la calidad del modelado de lenguaje en arquitecturas Mixture-of-Experts (MoE). Los autores descubrieron que diferentes variantes de enrutamiento, incluida una novedosa basada en la similitud del coseno, dan como resultado una perplejidad asintótica estadísticamente equivalente, lo que sugiere que el diseño del enrutamiento tiene un impacto menor de lo que se pensaba en la calidad final.

27
RESEARCHarXiv CS.AI·hace 11d

The Cognitive Categorical Transformer: Category-Theoretic Inductive Biases for Language Modeling

El Cognitive Categorical Transformer (CCT) es una arquitectura de 306M parámetros que aumenta un GPT-2 Small preentrenado con componentes derivados de la teoría de categorías e inspiraciones de la ciencia cognitiva. Logró una reducción relativa del 12% en la perplejidad en WikiText-103 en comparación con un GPT-2 Small de referencia, atribuyéndose el 84% de la mejora al paso de mensajes simplistas de GT-Full.

27