heapsort
RESEARCH↑ trending42

Why SSMs struggle in parameter-constrained training: empirical findings at 25M parameters [R]

Reddit r/MachineLearning·4 de mayo de 2026

Esta publicación detalla hallazgos empíricos de la competición Parameter Golf de OpenAI, explicando por qué los Modelos de Espacio de Estado (SSMs) están estructuralmente en desventaja frente a los transformadores en regímenes de entrenamiento con restricciones de parámetros y tiempo. Los problemas clave incluyen una peor compresión de los pesos in_proj de los SSM y reversiones de victorias arquitectónicas con vocabularios más grandes, junto con conocimientos de experimentos con los kernels Triton Mamba-3.

Leer original