sequence models

6 items

RESEARCHarXiv CS.CL·vor 4T

Generic Triple-Latent Compression with Gated Associative Retrieval

Diese Forschung stellt generische Triple-Latent-Sequenzmodelle vor, die einen laufenden Token-Zustand und einen komprimierten Paar-Speicherweg nutzen, um Token-Interaktionen höherer Ordnung zu erfassen. Diese Modelle zeigen Verbesserungen gegenüber einer Transformer-Baseline auf Sprachmodell-Benchmarks, obwohl eine Abruf-Erweiterung den assoziativen Abruf verbessert, aber langsamer ist.

language models latent models sequence models associative retrieval

RESEARCHarXiv CS.LG·vor 6T

Graph Mamba Survival Analysis Based on Topology-Aware ordering

Dieses Papier behandelt Herausforderungen in der Überlebensanalyse von Whole Slide Images (WSIs), insbesondere den Rechenengpass von Transformatoren und Mambas Empfindlichkeit gegenüber der Eingabereihenfolge sowie seiner unidirektionalen Architektur. Es schlägt einen neuen Ansatz vor, um Mambas Einschränkungen bei der Erfassung topologischer Konnektivität und bidirektionaler räumlicher Strukturen zu überwinden.

deep learning survival analysis sequence models computational pathology

RESEARCHarXiv CS.CL·4/13/2026

EMA Is Not All You Need: Mapping the Boundary Between Structure and Content in Recurrent Context

Diese Forschung untersucht Exponential Moving Average (EMA)-Spuren als minimalen rekurrenten Kontext, um die Fähigkeiten und Grenzen der Akkumulation mit festen Koeffizienten in Sequenzmodellen abzugrenzen. Es zeigt sich, dass EMA-Spuren hervorragend die zeitliche Struktur kodieren und bei strukturellen Aufgaben mit fortgeschrittenen Modellen mithalten können, jedoch grundsätzlich die Token-Identität nicht erfassen, was zu einer deutlich reduzierten Leistung beim Sprachmodellieren führt.

language models Recurrent Context Temporal Structure sequence models

RESEARCHarXiv CS.LG·vor 19T

Neural Estimation of Pairwise Mutual Information in Masked Discrete Sequence Models

Die Arbeit schlägt einen neuronalen Rahmen zur Schätzung der paarweisen bedingten wechselseitigen Information (MI) direkt aus den verborgenen Zuständen vortrainierter maskierter Diffusionsmodelle (MDMs) vor. Diese Methode erfasst Abhängigkeitsstrukturen und ermöglicht eine MI-geführte parallele Dekodierung, was ihre Nützlichkeit bei der Sudoku- und Proteinsequenzgenerierung durch das Wiederherstellen struktureller Einschränkungen demonstriert.

neural networks information theory machine learning sequence models

RESEARCHarXiv CS.AI·vor 24T

Conditional Attribute Estimation with Autoregressive Sequence Models

Diese Forschung stellt Conditional Attribute Transformers vor, eine neuartige Methode zur gleichzeitigen Schätzung der Wahrscheinlichkeit des nächsten Tokens und des Werts eines Attributs, bedingt durch jede potenzielle Auswahl des nächsten Tokens. Dieser Rahmen ermöglicht wichtige Funktionen wie die Zuweisung von Token-Credits und die kontrafaktische Analyse in einem einzigen Durchlauf und überwindet so Einschränkungen traditioneller generativer Modelle.

deep learning generative models sequence models Conditional Attribute Estimation

RESEARCHarXiv CS.LG·vor 29T

Toeplitz MLP Mixers are Low Complexity, Information-Rich Sequence Models

Der Toeplitz MLP Mixer (TMM) ist eine neue transformatorähnliche Architektur, die die Aufmerksamkeit durch dreiecksmaskierte Toeplitz-Matrixmultiplikation ersetzt und die Rechenkomplexität erheblich auf O(dn log n) Zeit und O(dn) Speicher reduziert. TMMs zeigen eine überlegene Trainingseffizienz und eine bessere Beibehaltung von Eingabeinformationen im Vergleich zu herkömmlichen Transformatoren, trotz ihres einfacheren Designs.

neural networks AI architecture Computational Efficiency sequence models