RESEARCH↑ trendingReddit r/MachineLearning·04/05/2026
Why SSMs struggle in parameter-constrained training: empirical findings at 25M parameters [R]
Esta publicação detalha descobertas empíricas da competição Parameter Golf da OpenAI, explicando por que os Modelos de Espaço de Estado (SSMs) estão estruturalmente em desvantagem em relação aos transformers em regimes de treino com restrição de parâmetros e tempo. Os problemas incluem pior compressão dos pesos in_proj dos SSMs e reversões de ganhos arquitetônicos em vocabulários maiores, além de insights de experimentos com kernels Triton Mamba-3.
42