← heapsort-ai

State Space Models

5 items

RESEARCHarXiv CS.LG·21/04/2026

UniMamba: A Unified Spatial-Temporal Modeling Framework with State-Space and Attention Integration

UniMamba est un nouveau cadre unifié de prévision spatio-temporelle qui intègre des dynamiques efficaces de modèles d'état avec l'apprentissage des dépendances basé sur l'attention pour relever les défis des séries temporelles multivariées. Il utilise une couche d'encodage de canal varié Mamba et une couche d'attention spatio-temporelle pour capturer à la fois les dépendances temporelles globales et les corrélations inter-variables.

33
RESEARCHarXiv CS.LG·08/05/2026

Sparse Prefix Caching for Hybrid and Recurrent LLM Serving

Cet article introduit le cache de préfixe épars, une optimisation pour la diffusion de LLM qui stocke les états récurrents à des points de contrôle plutôt que l'historique complet des tokens. La méthode améliore constamment la frontière de Pareto par rapport aux heuristiques standards, en particulier pour les cas d'utilisation où les requêtes partagent un préfixe non trivial.

27
RESEARCHarXiv CS.LG·il y a 12j

A Simple State Space Model Excels at Multivariate Time Series Classification

Cette recherche étudie systématiquement les modèles d'espace d'états structurés (SSM) pour la classification des séries temporelles, comparant les architectures complexes basées sur Mamba avec des SSM diagonaux plus simples (S4D). Étonnamment, S4D surpasse constamment les variantes basées sur Mamba en termes de précision et d'efficacité sur de grands benchmarks, remettant en question l'hypothèse qu'une complexité accrue du modèle entraîne des gains significatifs dans ce domaine.

27
RESEARCHarXiv CS.LG·06/05/2026

StateSMix: Online Lossless Compression via Mamba State Space Models and Sparse N-gram Context Mixing

StateSMix est un compresseur sans perte autonome qui couple un modèle d'espace d'état (SSM) de style Mamba entraîné en ligne avec un mélange de contexte de n-grammes épars et un codage arithmétique. Il est initialisé à partir de zéro et entraîné jeton par jeton sur le fichier, ne nécessitant ni poids pré-entraînés, ni GPU, ni dépendances externes, et atteint de bonnes performances sur le benchmark enwik8.

27