← heapsort-ai

Diffusion Models

41 items

RESEARCHarXiv CS.AI·il y a 1j

DiBS: Diffusion-Informed Branch Selection

L'article présente DiBS, une nouvelle approche guidée par un modèle de diffusion pour la sélection de branches dans la résolution de Sudoku, un problème de satisfaction de contraintes. Il améliore les solveurs symboliques en utilisant un modèle de diffusion pour guider l'ordonnancement des branches, assurant la complétude tout en atténuant les problèmes de recherche à longue traîne.

60
RESEARCHarXiv CS.CL·il y a 1j

Data-Efficient Autoregressive-to-Diffusion Language Models via On-Policy Distillation

Cet article présente le modèle de langage de diffusion on-policy (OPDLM) pour transformer les modèles autorégressifs (ARLMs) en modèles de langage de diffusion (DLMs). Il aborde les problèmes tels que la perte de connaissances et l'inadéquation entre l'entraînement et l'inférence en utilisant la distillation on-policy (OPD).

60
RESEARCHarXiv CS.LG·il y a 20h

Enabling KV Caching of Shared Prefix for Diffusion Language Models

L'article introduit "bicache", la première technique de mise en cache KV pour les préfixes partagés dans les modèles de langage de diffusion (DLMs), résolvant les défis où les méthodes de mise en cache LLM existantes échouent en raison de l'attention bidirectionnelle des DLMs. Cette nouvelle approche vise à permettre un service DLM à haut débit en exploitant les observations sur la stabilité des KVs de préfixes partagés dans les couches peu profondes.

54
RESEARCH↑ trendingReddit r/LocalLLaMA·10/04/2026

National University of Singapore Presents "DMax": A New Paradigm For Diffusion Language Models (dLLMs) Enabling Aggressive Parallel Decoding.

DMax é um novo paradigma para modelos de linguagem de difusão (dLLMs) eficientes que mitiga o acúmulo de erros na decodificação paralela. Ele permite um paralelismo agressivo ao reformular a decodificação como um processo de auto-refinamento progressivo e introduzir uma estratégia de treinamento unificada.

44
RESEARCHarXiv CS.LG·il y a 1j

FAIR-Calib: Frontier-Aware Instability-Reweighted Calibration for Post-Training Quantization of Diffusion Large Language Models

Les Modèles de Langage de Diffusion (dLLMs) sont confrontés à un "délai de stabilité" dû à l'engagement irréversible des tokens, un problème exacerbé par les erreurs de Quantification Post-Entraînement (PTQ). FAIR-Calib propose un cadre PTQ en deux étapes qui utilise un a priori de position et une calibration couche par couche pour protéger les états frontaliers fragiles, améliorant la quantification pour les dLLMs.

40
ARTICLEDEV.to AI·22/04/2026

The Unfinished Frame

L'auteur explore la beauté et l'honnêteté de mettre en pause les modèles de diffusion à mi-parcours, trouvant ces cadres inachevés plus révélateurs que les images finales polies. Ces étapes, où les modèles d'IA sont encore en "réflexion" et négocient les caractéristiques de leurs données d'entraînement, sont décrites comme une "confession" plutôt qu'une "déclaration".

34
RESEARCHarXiv CS.CL·22/04/2026

Remask, Don't Replace: Token-to-Mask Refinement in Masked Diffusion Language Models

Cet article propose une nouvelle technique, le remasking Token-to-Mask (T2M), pour affiner les modèles de langage de diffusion masqués tels que LLaDA2.1. Cette méthode corrige les lacunes de l'édition Token-to-Token (T2T) en réinitialisant les jetons suspects à un état de masque pour une reprediction plus précise.

32
RESEARCHarXiv CS.LG·22/04/2026

Discrete Tilt Matching

Discrete Tilt Matching (DTM) est une nouvelle méthode sans vraisemblance pour l'affinage des grands modèles linguistiques de diffusion masqués (dLLMs), résolvant l'intractabilité des vraisemblances marginales. Cette approche reformule l'affinage en correspondance au niveau de l'état et utilise un objectif d'entropie croisée pondérée avec des variables de contrôle, démontrant des gains importants sur des tâches comme Sudoku et Countdown.

30
RESEARCHarXiv CS.CL·13/04/2026

Re-Mask and Redirect: Exploiting Denoising Irreversibility in Diffusion Language Models

Cet article révèle une vulnérabilité critique dans les modèles de langage basés sur la diffusion (dLLMs) où leur alignement de sécurité, reposant sur des calendriers de débruitage monotones, peut être facilement contourné. En masquant à nouveau les jetons de refus et en injectant un préfixe affirmatif, les chercheurs ont obtenu des taux de réussite d'attaque élevés contre des dLLMs proéminents, exposant une faille structurelle.

29
RESEARCHarXiv CS.LG·il y a 19j

Provably Learning Diffusion Models under the Manifold Hypothesis: Collapse and Refine

Cet article propose une explication théorique de l'efficacité des modèles de diffusion pour l'apprentissage de la fonction de score sur des données de haute dimension reposant sur des variétés de basse dimension. Il identifie un mécanisme de « collapse et raffinement » basé sur la géométrie de la fonction de score, où le mappage de débruitage se projette sur la variété de données et affine la densité intrinsèque.

29
RESEARCHDEV.to AI·10/05/2026

Diffusion models approach AR quality and improve inference speed

Les modèles de langage à diffusion réalisent désormais des gains de débit significatifs et réduisent l'écart avec les décodeurs autorégressifs en termes de vitesse d'inférence. Les nouveaux modèles de langage à diffusion introspectifs (I-DLM) corrigent les problèmes antérieurs de cohérence introspective et de boucles d'échantillonnage inefficaces, améliorant ainsi la qualité et la latence.

28
RESEARCHarXiv CS.LG·il y a 21j

Systematic Optimization of Real-Time Diffusion Model Inference on Apple M3 Ultra

Cette recherche optimise systématiquement l'inférence des modèles de diffusion en temps réel sur l'Apple M3 Ultra, explorant diverses techniques telles que la conversion CoreML et la quantification. L'étude a atteint 22.7 FPS pour la transformation img2img de 512x512 en combinant la conversion CoreML du SDXS-512 avec un pipeline de caméra à 3 threads.

28
ARTICLEDEV.to AI·17/04/2026

Why Every AI Image Generator Fails at Text (And One That Finally Doesn't)

Cet article explique pourquoi les générateurs d'images IA, tels que Stable Diffusion et Midjourney, échouent systématiquement à rendre le texte correctement, attribuant le problème à la manière dont les modèles de diffusion apprennent les motifs visuels. Cependant, il mentionne l'existence d'un modèle qui a enfin surmonté cette limitation courante.

28
RESEARCHarXiv CS.LG·il y a 27j

Steering Without Breaking: Mechanistically Informed Interventions for Discrete Diffusion Language Models

Cet article examine les limites des interventions uniformes dans les modèles de langage à diffusion discrète (DLMs), démontrant qu'elles dégradent la qualité de la génération contrôlée. Les auteurs constatent que différents attributs se stabilisent à des étapes distinctes du processus de débruitage, proposant un planificateur adaptatif pour concentrer les interventions efficacement.

28
RESEARCHarXiv CS.CL·il y a 12j

From AR to Diffusion: Efficiently Adapting Large Language Models with Strictly Causal and Elastic Horizons

FLUID est un nouveau framework qui adapte efficacement les modèles autorégressifs (AR) au paradigme de diffusion pour la génération de texte parallèle. Il permet l'initialisation à partir de modèles de style GPT et introduit un mécanisme de dénoising dynamique, atteignant des performances de pointe avec des coûts d'entraînement considérablement réduits.

28
RESEARCHarXiv CS.LG·06/04/2026

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models

Este trabalho explora o agendamento de modelos para acelerar os Modelos de Linguagem de Difusão Mascarada (MDLMs), substituindo o modelo completo por um menor em certas etapas de denoising. A pesquisa mostra que as etapas iniciais e finais são mais robustas a essa substituição, permitindo uma redução de até 17% nos FLOPs com degradação mínima na perplexidade generativa.

28
RESEARCHarXiv CS.CL·il y a 15j

Learnability-Informed Fine-Tuning of Diffusion Language Models

Cette recherche présente LIFT, un algorithme de "fine-tuning" informé par l'apprenabilité, conçu pour améliorer les capacités de raisonnement des modèles de langage de diffusion. LIFT corrige les lacunes du SFT standard en apprenant les tokens de manière adaptative en fonction de leur difficulté et du contexte disponible à différentes étapes temporelles de diffusion, démontrant une performance améliorée.

28