← heapsort-ai

Diffusion Models

41 items

RESEARCHarXiv CS.LG·vor 20Std

Enabling KV Caching of Shared Prefix for Diffusion Language Models

Die Arbeit stellt "bicache" vor, die erste KV-Caching-Technik für geteilte Präfixe in Diffusions-Sprachmodellen (DLMs), die Herausforderungen angeht, bei denen bestehende LLM-Caching-Methoden aufgrund der bidirektionalen Aufmerksamkeit von DLMs versagen. Dieser neue Ansatz zielt darauf ab, einen hohen Durchsatz beim DLM-Serving zu ermöglichen, indem er Erkenntnisse über die Stabilität geteilter Präfix-KVs in flachen Schichten nutzt.

54
RESEARCH↑ trendingReddit r/LocalLLaMA·4/10/2026

National University of Singapore Presents "DMax": A New Paradigm For Diffusion Language Models (dLLMs) Enabling Aggressive Parallel Decoding.

DMax é um novo paradigma para modelos de linguagem de difusão (dLLMs) eficientes que mitiga o acúmulo de erros na decodificação paralela. Ele permite um paralelismo agressivo ao reformular a decodificação como um processo de auto-refinamento progressivo e introduzir uma estratégia de treinamento unificada.

44
RESEARCHarXiv CS.LG·vor 1T

FAIR-Calib: Frontier-Aware Instability-Reweighted Calibration for Post-Training Quantization of Diffusion Large Language Models

Diffusions-Large Language Models (dLLMs) leiden unter einem "Stabilitätsrückstand" aufgrund irreversibler Token-Commitments, ein Problem, das durch Fehler bei der Post-Training Quantization (PTQ) verschärft wird. FAIR-Calib schlägt ein zweistufiges PTQ-Framework vor, das ein Positions-Prior und schichtweise Kalibrierung nutzt, um fragile Grenzschichtzustände zu schützen und so die Quantisierung für dLLMs zu verbessern.

40
ARTICLEDEV.to AI·4/22/2026

The Unfinished Frame

Der Autor erforscht die Schönheit und Ehrlichkeit des Anhaltens von Diffusionsmodellen mitten im Rendering, wobei er diese unfertigen Bilder als aufschlussreicher empfindet als polierte Endbilder. Diese Phasen, in denen KI-Modelle noch „denken“ und Merkmale aus ihren Trainingsdaten aushandeln, werden eher als „Geständnis“ denn als „Aussage“ beschrieben.

34
RESEARCHarXiv CS.CL·4/22/2026

Remask, Don't Replace: Token-to-Mask Refinement in Masked Diffusion Language Models

Dieses Papier schlägt eine neue Technik, das Token-to-Mask (T2M) Remasking, zur Verfeinerung maskierter Diffusions-Sprachmodelle wie LLaDA2.1 vor. Die Methode behebt die Mängel der Token-to-Token (T2T)-Bearbeitung, indem sie verdächtige Token in einen Maskierungszustand zurücksetzt, was eine genauere Neuprädiktion ermöglicht.

32
RESEARCHarXiv CS.LG·4/22/2026

Discrete Tilt Matching

Discrete Tilt Matching (DTM) ist eine neue, wahrscheinlichkeitstheorie-freie Methode zum Fine-Tuning maskierter Diffusions-Sprachmodelle (dLLMs), die das Problem der nicht bestimmbaren marginalen Wahrscheinlichkeiten löst. Sie formuliert das Fine-Tuning als Zustandsabgleich um und verwendet ein gewichtetes Kreuzentropie-Ziel mit Kontrollvariablen, wodurch sie signifikante Verbesserungen bei Aufgaben wie Sudoku und Countdown erzielt.

30
RESEARCHarXiv CS.CL·4/13/2026

Re-Mask and Redirect: Exploiting Denoising Irreversibility in Diffusion Language Models

Diese Arbeit enthüllt eine kritische Schwachstelle in diffusionsbasierten Sprachmodellen (dLLMs), deren Sicherheitsausrichtung, basierend auf monotonen Entrauschungsplänen, leicht umgangen werden kann. Durch das Neumaskieren von Ablehnungs-Tokens und das Injizieren eines bejahenden Präfixes erzielten Forscher hohe Angriffserfolgsraten gegen prominente dLLMs und legten damit einen strukturellen Fehler offen.

29
RESEARCHarXiv CS.LG·vor 19T

Provably Learning Diffusion Models under the Manifold Hypothesis: Collapse and Refine

Diese Arbeit bietet eine theoretische Erklärung für die Effizienz von Diffusionsmodellen beim Erlernen der Score-Funktion für hochdimensionale Daten auf niedrigdimensionalen Mannigfaltigkeiten. Sie identifiziert einen „Kollaps-und-Verfeinerungs“-Mechanismus, der durch die Geometrie der Score-Funktion angetrieben wird, wobei die Entrauschungsabbildung auf die Datenmannigfaltigkeit projiziert wird und die intrinsische Dichte verfeinert wird.

29
RESEARCHarXiv CS.LG·4/14/2026

The Diffusion-Attention Connection

Diese Forschung vereinheitlicht Transformatoren, Diffusionskarten und magnetische Laplacians und präsentiert sie als verschiedene Regime einer einzigen Markov-Geometrie, die aus Pre-Softmax-Query-Scores aufgebaut ist. Sie definiert eine QK-"Bidivergenz", um Attention und Diffusion zu verbinden und ihre Dynamik mittels Produkt von Experten und Schrödinger-Brücken zu organisieren.

28
RESEARCHDEV.to AI·5/10/2026

Diffusion models approach AR quality and improve inference speed

Diffusionssprachmodelle erzielen nun erhebliche Durchsatzsteigerungen und verringern den Abstand zu autoregressiven Decodern bei der Inferenzgeschwindigkeit. Neue Introspektive Diffusionssprachmodelle (I-DLM) beheben frühere Probleme der introspektiven Konsistenz und ineffizienter Sampling-Schleifen, wodurch sowohl Qualität als auch Latenz verbessert werden.

28
RESEARCHarXiv CS.LG·vor 21T

Systematic Optimization of Real-Time Diffusion Model Inference on Apple M3 Ultra

Diese Forschung optimiert systematisch die Inferenz von Echtzeit-Diffusionsmodellen auf dem Apple M3 Ultra und untersucht verschiedene Techniken wie CoreML-Konvertierung und Quantisierung. Die Studie erreichte 22.7 FPS für die 512x512 img2img-Transformation durch die Kombination der CoreML-Konvertierung des SDXS-512 mit einer 3-Thread-Kamerapipeline.

28
RESEARCHarXiv CS.LG·vor 27T

Steering Without Breaking: Mechanistically Informed Interventions for Discrete Diffusion Language Models

Diese Arbeit untersucht die Einschränkungen gleichmäßiger Interventionen in diskreten Diffusions-Sprachmodellen (DLMs) und zeigt, dass diese die Qualität der gesteuerten Generierung verschlechtern. Die Autoren stellen fest, dass verschiedene Attribute zu unterschiedlichen Zeitpunkten im Denoising-Prozess fixiert werden, und schlagen einen adaptiven Planer vor, um Interventionen effizient zu konzentrieren.

28
RESEARCHarXiv CS.CL·vor 12T

From AR to Diffusion: Efficiently Adapting Large Language Models with Strictly Causal and Elastic Horizons

FLUID ist ein neues Framework, das autoregressive (AR) Backbones effizient an das Diffusionsparadigma zur parallelen Textgenerierung anpasst. Es ermöglicht die Initialisierung von GPT-Modellen und führt einen dynamischen Entrauschungsmechanismus ein, wodurch Spitzenleistungen bei erheblich reduzierten Trainingskosten erzielt werden.

28
RESEARCHarXiv CS.LG·4/6/2026

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models

Este trabalho explora o agendamento de modelos para acelerar os Modelos de Linguagem de Difusão Mascarada (MDLMs), substituindo o modelo completo por um menor em certas etapas de denoising. A pesquisa mostra que as etapas iniciais e finais são mais robustas a essa substituição, permitindo uma redução de até 17% nos FLOPs com degradação mínima na perplexidade generativa.

28
RESEARCHarXiv CS.CL·vor 15T

Learnability-Informed Fine-Tuning of Diffusion Language Models

Diese Forschung stellt LIFT vor, einen lerbarkeitsinformierten Fine-Tuning-Algorithmus, der entwickelt wurde, um die Schlussfolgerungsfähigkeiten von Diffusions-Sprachmodellen zu verbessern. LIFT behebt Mängel des Standard-SFT, indem es Token adaptiv basierend auf deren Schwierigkeit und dem verfügbaren Kontext während verschiedener Diffusionszeitschritte lernt und dabei eine verbesserte Leistung gegenüber bestehenden Baselines zeigt.

28