RESEARCH↑ trending42
Why SSMs struggle in parameter-constrained training: empirical findings at 25M parameters [R]
Reddit r/MachineLearning·4 de mayo de 2026
Esta publicación detalla hallazgos empíricos de la competición Parameter Golf de OpenAI, explicando por qué los Modelos de Espacio de Estado (SSMs) están estructuralmente en desventaja frente a los transformadores en regímenes de entrenamiento con restricciones de parámetros y tiempo. Los problemas clave incluyen una peor compresión de los pesos in_proj de los SSM y reversiones de victorias arquitectónicas con vocabularios más grandes, junto con conocimientos de experimentos con los kernels Triton Mamba-3.
Leer original ↗