← heapsort-ai

Neural network training

1 items

RESEARCH↑ trendingReddit r/MachineLearning·04/05/2026

Why SSMs struggle in parameter-constrained training: empirical findings at 25M parameters [R]

Cette publication détaille les découvertes empiriques de la compétition Parameter Golf d'OpenAI, expliquant pourquoi les Modèles d'Espace d'État (SSMs) sont structurellement désavantagés par rapport aux transformeurs dans les régimes d'entraînement contraints par les paramètres et le temps. Les problèmes incluent une moins bonne compression des poids in_proj des SSM et des inversions de gains architecturaux à des tailles de vocabulaire plus grandes, ainsi que des aperçus d'expériences sur les noyaux Triton Mamba-3.

42