sequence models

6 items

RESEARCHarXiv CS.CL·hace 4d

Generic Triple-Latent Compression with Gated Associative Retrieval

Esta investigación introduce modelos de secuencia genéricos triplemente latentes, que utilizan un estado de token en ejecución y memoria de par comprimida para capturar interacciones de tokens de orden superior. Estos modelos muestran mejoras sobre una línea base de Transformer en benchmarks de modelos de lenguaje, aunque una extensión de recuperación mejora la recuperación pero es más lenta.

language models latent models sequence models associative retrieval

RESEARCHarXiv CS.LG·hace 6d

Graph Mamba Survival Analysis Based on Topology-Aware ordering

Este artículo aborda desafíos en el análisis de supervivencia de Imágenes de Diapositivas Completas (WSIs), específicamente el cuello de botella computacional de los Transformers y la sensibilidad de Mamba al orden de entrada y su arquitectura unidireccional. Propone un nuevo enfoque para superar las limitaciones de Mamba en la captura de conectividad topológica y estructuras espaciales bidireccionales.

deep learning survival analysis sequence models computational pathology

RESEARCHarXiv CS.CL·13/4/2026

EMA Is Not All You Need: Mapping the Boundary Between Structure and Content in Recurrent Context

Esta investigación explora los rastros de Promedio Móvil Exponencial (EMA) como un contexto recurrente mínimo para delinear las capacidades y limitaciones de la acumulación de coeficiente fijo en modelos de secuencia. Demuestra que los rastros de EMA sobresalen en la codificación de la estructura temporal, igualando a modelos avanzados en tareas estructurales, pero fundamentalmente fallan en capturar la identidad del token, lo que resulta en un rendimiento significativamente reducido para el modelado de lenguaje.

language models Recurrent Context Temporal Structure sequence models

RESEARCHarXiv CS.LG·hace 19d

Neural Estimation of Pairwise Mutual Information in Masked Discrete Sequence Models

El artículo propone un marco neural para estimar la información mutua condicional (MI) por pares directamente de los estados ocultos de modelos de difusión enmascarados (MDMs) preentrenados. Este método captura estructuras de dependencia y permite la decodificación paralela guiada por MI, mostrando su utilidad en la generación de secuencias de Sudoku y proteínas al recuperar restricciones estructurales.

neural networks information theory machine learning sequence models

RESEARCHarXiv CS.AI·hace 24d

Conditional Attribute Estimation with Autoregressive Sequence Models

Esta investigación introduce los Conditional Attribute Transformers, un método novedoso para estimar conjuntamente la probabilidad del siguiente token y el valor de un atributo condicional a cada selección potencial del siguiente token. Este marco permite capacidades críticas como la asignación de crédito por token y el análisis contrafactual en una sola pasada, superando las limitaciones de los modelos generativos tradicionales.

deep learning generative models sequence models Conditional Attribute Estimation

RESEARCHarXiv CS.LG·hace 29d

Toeplitz MLP Mixers are Low Complexity, Information-Rich Sequence Models

El Toeplitz MLP Mixer (TMM) es una nueva arquitectura similar a los transformadores que reemplaza la atención por una multiplicación de matriz de Toeplitz con máscara triangular, reduciendo significativamente la complejidad computacional a O(dn log n) de tiempo y O(dn) de espacio. Los TMM demuestran una eficiencia de entrenamiento superior y una mejor retención de información de entrada en comparación con los transformadores tradicionales, a pesar de su diseño más simple.

neural networks AI architecture Computational Efficiency sequence models