← heapsort-ai

Neural network training

1 items

RESEARCH↑ trendingReddit r/MachineLearning·5/4/2026

Why SSMs struggle in parameter-constrained training: empirical findings at 25M parameters [R]

Dieser Beitrag beschreibt empirische Erkenntnisse aus OpenAIs Parameter Golf-Wettbewerb und erklärt, warum State Space Models (SSMs) gegenüber Transformatoren bei parameter- und zeitbeschränkten Trainingsbedingungen strukturell benachteiligt sind. Hauptprobleme sind eine schlechtere Komprimierung der in_proj-Gewichte von SSMs und architektonische Umkehrmeldungen bei größeren Vokabulargrößen, ergänzt durch Einblicke aus Mamba-3 Triton-Kernel-Experimenten.

42