← heapsort-ai

Autoregressive Models

5 items

RESEARCHarXiv CS.CL·il y a 12j

From AR to Diffusion: Efficiently Adapting Large Language Models with Strictly Causal and Elastic Horizons

FLUID est un nouveau framework qui adapte efficacement les modèles autorégressifs (AR) au paradigme de diffusion pour la génération de texte parallèle. Il permet l'initialisation à partir de modèles de style GPT et introduit un mécanisme de dénoising dynamique, atteignant des performances de pointe avec des coûts d'entraînement considérablement réduits.

28
RESEARCHarXiv CS.CL·il y a 26j

Differences in Text Generated by Diffusion and Autoregressive Language Models

Cette recherche explore les différences intrinsèques dans le texte généré par les Modèles de Langage à Diffusion (DLM) et les Modèles de Langage Autorégressifs (ARM), constatant que les DLM présentent une entropie n-gramme inférieure mais une cohérence et une diversité sémantiques plus élevées. Des expériences contrôlées révèlent que les objectifs d'entraînement des DLM améliorent la cohérence et la diversité grâce au contexte bidirectionnel, tandis que les algorithmes de décodage sont responsables de la réduction de l'entropie.

27
RESEARCHarXiv CS.AI·il y a 24j

Conditional Attribute Estimation with Autoregressive Sequence Models

Cette recherche introduit les Conditional Attribute Transformers, une nouvelle méthode pour estimer conjointement la probabilité du prochain token et la valeur d'un attribut conditionnellement à chaque sélection potentielle du prochain token. Ce cadre permet des capacités critiques telles que l'attribution de crédit par token et l'analyse contrefactuelle en un seul passage, surmontant les limites des modèles génératifs traditionnels.

27