← heapsort-ai

sequence models

6 items

RESEARCHarXiv CS.CL·il y a 4j

Generic Triple-Latent Compression with Gated Associative Retrieval

Cette recherche introduit des modèles de séquence génériques à triple latence, qui utilisent un état de jeton courant et une mémoire de paires compressée pour capturer des interactions de jetons d'ordre supérieur. Ces modèles démontrent une amélioration par rapport à une base de référence Transformer sur des benchmarks de modèles de langage, bien qu'une extension de récupération améliore le rappel mais soit plus lente.

30
RESEARCHarXiv CS.LG·il y a 6j

Graph Mamba Survival Analysis Based on Topology-Aware ordering

Cet article aborde les défis de l'analyse de survie des Images de Lames Entières (WSIs), en particulier le goulot d'étranglement computationnel des Transformers et la sensibilité de Mamba à l'ordre d'entrée ainsi que son architecture unidirectionnelle. Il propose une nouvelle approche pour surmonter les limitations de Mamba dans la capture de la connectivité topologique et des structures spatiales bidirectionnelles.

28
RESEARCHarXiv CS.CL·13/04/2026

EMA Is Not All You Need: Mapping the Boundary Between Structure and Content in Recurrent Context

Cette recherche explore les traces de moyenne mobile exponentielle (EMA) comme un contexte récurrent minimal pour délimiter les capacités et les limites de l'accumulation à coefficient fixe dans les modèles de séquence. Elle démontre que les traces EMA excellent dans l'encodage de la structure temporelle, égalant les modèles avancés sur les tâches structurelles, mais échouent fondamentalement à capturer l'identité du jeton, entraînant une performance significativement réduite pour la modélisation linguistique.

27
RESEARCHarXiv CS.LG·il y a 19j

Neural Estimation of Pairwise Mutual Information in Masked Discrete Sequence Models

L'article propose un cadre neuronal pour estimer l'information mutuelle conditionnelle par paires (MI) directement à partir des états cachés de modèles de diffusion masqués (MDMs) pré-entraînés. Cette méthode capture les structures de dépendance et permet un décodage parallèle guidé par la MI, démontrant son utilité dans la génération de séquences de Sudoku et de protéines en récupérant des contraintes structurelles.

27
RESEARCHarXiv CS.AI·il y a 24j

Conditional Attribute Estimation with Autoregressive Sequence Models

Cette recherche introduit les Conditional Attribute Transformers, une nouvelle méthode pour estimer conjointement la probabilité du prochain token et la valeur d'un attribut conditionnellement à chaque sélection potentielle du prochain token. Ce cadre permet des capacités critiques telles que l'attribution de crédit par token et l'analyse contrefactuelle en un seul passage, surmontant les limites des modèles génératifs traditionnels.

27
RESEARCHarXiv CS.LG·il y a 29j

Toeplitz MLP Mixers are Low Complexity, Information-Rich Sequence Models

Le Toeplitz MLP Mixer (TMM) est une nouvelle architecture de type transformateur qui remplace l'attention par une multiplication de matrice de Toeplitz masquée triangulairement, réduisant significativement la complexité computationnelle à O(dn log n) en temps et O(dn) en espace. Les TMM démontrent une efficacité d'entraînement supérieure et une meilleure rétention d'informations d'entrée par rapport aux transformateurs traditionnels, malgré leur conception plus simple.

27