← heapsort-ai

sequence models

6 items

RESEARCHarXiv CS.CL·4d atrás

Generic Triple-Latent Compression with Gated Associative Retrieval

Esta pesquisa introduz modelos de sequência genéricos triplo-latentes que utilizam um estado de token contínuo e memória de par comprimida para capturar interações de tokens de ordem superior. Esses modelos demonstram melhorias em benchmarks de modelos de linguagem, embora uma extensão de recuperação melhore o recall, mas seja mais lenta.

30
RESEARCHarXiv CS.LG·6d atrás

Graph Mamba Survival Analysis Based on Topology-Aware ordering

Este artigo aborda desafios na análise de sobrevivência de Imagens de Lâminas Inteiras (WSIs), focando no gargalo computacional dos Transformers e na sensibilidade do Mamba à ordem de entrada e sua arquitetura unidirecional. Propõe uma nova abordagem para superar as limitações do Mamba na captura de conectividade topológica e estruturas espaciais bidirecionais.

28
RESEARCHarXiv CS.CL·13/04/2026

EMA Is Not All You Need: Mapping the Boundary Between Structure and Content in Recurrent Context

Esta pesquisa explora traços de Média Móvel Exponencial (EMA) como um contexto recorrente mínimo para delinear as capacidades e limitações da acumulação de coeficiente fixo em modelos de sequência. Ela demonstra que os traços EMA são excelentes na codificação de estrutura temporal, igualando modelos avançados em tarefas estruturais, mas falham fundamentalmente em capturar a identidade do token, resultando em desempenho significativamente reduzido para modelagem de linguagem.

27
RESEARCHarXiv CS.LG·19d atrás

Neural Estimation of Pairwise Mutual Information in Masked Discrete Sequence Models

O artigo propõe uma estrutura neural para estimar a informação mútua condicional (MI) pareada diretamente dos estados ocultos de modelos de difusão mascarados (MDMs) pré-treinados. Este método captura estruturas de dependência e permite a decodificação paralela guiada por MI, demonstrando utilidade na geração de sequências de Sudoku e proteínas ao recuperar restrições estruturais.

27
RESEARCHarXiv CS.AI·24d atrás

Conditional Attribute Estimation with Autoregressive Sequence Models

Esta pesquisa apresenta os Conditional Attribute Transformers, um novo método para estimar conjuntamente a probabilidade do próximo token e o valor de um atributo condicionalmente a cada seleção potencial do próximo token. Este framework permite capacidades críticas como atribuição de crédito por token e análise contrafactual em uma única passagem, superando limitações dos modelos generativos tradicionais.

27
RESEARCHarXiv CS.LG·29d atrás

Toeplitz MLP Mixers are Low Complexity, Information-Rich Sequence Models

O Toeplitz MLP Mixer (TMM) é uma nova arquitetura semelhante a transformadores que substitui a atenção por multiplicação de matriz Toeplitz mascarada triangularmente, reduzindo significativamente a complexidade computacional para O(dn log n) de tempo e O(dn) de espaço. Os TMMs demonstram maior eficiência de treinamento e melhor retenção de informações de entrada em comparação com os transformadores tradicionais, apesar de seu design mais simples.

27