← heapsort-ai

Autoregressive Models

5 items

RESEARCHarXiv CS.CL·vor 12T

From AR to Diffusion: Efficiently Adapting Large Language Models with Strictly Causal and Elastic Horizons

FLUID ist ein neues Framework, das autoregressive (AR) Backbones effizient an das Diffusionsparadigma zur parallelen Textgenerierung anpasst. Es ermöglicht die Initialisierung von GPT-Modellen und führt einen dynamischen Entrauschungsmechanismus ein, wodurch Spitzenleistungen bei erheblich reduzierten Trainingskosten erzielt werden.

28
RESEARCHarXiv CS.CL·vor 26T

Differences in Text Generated by Diffusion and Autoregressive Language Models

Diese Forschung untersucht die intrinsischen Unterschiede in Texten, die von Diffusions-Sprachmodellen (DLMs) und autoregressiven Sprachmodellen (ARMs) generiert werden, und stellt fest, dass DLMs eine geringere n-Gramm-Entropie, aber eine höhere semantische Kohärenz und Diversität aufweisen. Kontrollierte Experimente zeigen, dass die Trainingsziele von DLMs zur Erhöhung der semantischen Kohärenz und Diversität beitragen, während die Dekodierungsalgorithmen für die Entropiereduktion verantwortlich sind.

27
RESEARCHarXiv CS.AI·vor 24T

Conditional Attribute Estimation with Autoregressive Sequence Models

Diese Forschung stellt Conditional Attribute Transformers vor, eine neuartige Methode zur gleichzeitigen Schätzung der Wahrscheinlichkeit des nächsten Tokens und des Werts eines Attributs, bedingt durch jede potenzielle Auswahl des nächsten Tokens. Dieser Rahmen ermöglicht wichtige Funktionen wie die Zuweisung von Token-Credits und die kontrafaktische Analyse in einem einzigen Durchlauf und überwindet so Einschränkungen traditioneller generativer Modelle.

27