← heapsort-ai

Diffusion Models

41 items

RESEARCHarXiv CS.LG·hace 20h

Enabling KV Caching of Shared Prefix for Diffusion Language Models

El artículo presenta "bicache", la primera técnica de caché KV para prefijos compartidos en modelos de lenguaje de difusión (DLMs), abordando desafíos donde los métodos de caché de LLM existentes fallan debido a la atención bidireccional de los DLMs. Este nuevo enfoque busca desbloquear el servicio de DLM de alto rendimiento, aprovechando observaciones sobre la estabilidad de los KVs de prefijos compartidos en capas poco profundas.

54
RESEARCH↑ trendingReddit r/LocalLLaMA·10/4/2026

National University of Singapore Presents "DMax": A New Paradigm For Diffusion Language Models (dLLMs) Enabling Aggressive Parallel Decoding.

DMax é um novo paradigma para modelos de linguagem de difusão (dLLMs) eficientes que mitiga o acúmulo de erros na decodificação paralela. Ele permite um paralelismo agressivo ao reformular a decodificação como um processo de auto-refinamento progressivo e introduzir uma estratégia de treinamento unificada.

44
RESEARCHarXiv CS.LG·hace 1d

FAIR-Calib: Frontier-Aware Instability-Reweighted Calibration for Post-Training Quantization of Diffusion Large Language Models

Los Modelos de Lenguaje Grandes de Difusión (dLLMs) experimentan un "retraso de estabilidad" debido a la confirmación irreversible de tokens, un problema agravado por errores de Cuantificación Post-Entrenamiento (PTQ). FAIR-Calib propone un marco PTQ de dos etapas que utiliza un prior de posición y calibración por capa para proteger estados de frontera frágiles, mejorando la cuantificación para dLLMs.

40
ARTICLEDEV.to AI·22/4/2026

The Unfinished Frame

El autor explora la belleza y la honestidad de pausar modelos de difusión a mitad de la renderización, encontrando estos marcos inacabados más reveladores que las imágenes finales pulidas. Estas etapas, donde los modelos de IA aún están "pensando" y negociando características de sus datos de entrenamiento, se describen como una "confesión" en lugar de una "declaración".

34
RESEARCHarXiv CS.CL·22/4/2026

Remask, Don't Replace: Token-to-Mask Refinement in Masked Diffusion Language Models

Este artículo propone una nueva técnica, Token-to-Mask (T2M) remasking, para refinar modelos de lenguaje de difusión enmascarados como LLaDA2.1. El método aborda las deficiencias de la edición Token-to-Token (T2T) al restablecer los tokens sospechosos a un estado de máscara, permitiendo una predicción más precisa.

32
RESEARCHarXiv CS.LG·22/4/2026

Discrete Tilt Matching

Discrete Tilt Matching (DTM) es un nuevo método sin verosimilitud para el ajuste fino de grandes modelos de lenguaje de difusión enmascarada (dLLMs), abordando la intratabilidad de las probabilidades marginales. Este método reformula el ajuste fino como coincidencia a nivel de estado y emplea un objetivo de entropía cruzada ponderada con varianzas de control, logrando mejoras notables en tareas como Sudoku y Countdown.

30
RESEARCHarXiv CS.CL·13/4/2026

Re-Mask and Redirect: Exploiting Denoising Irreversibility in Diffusion Language Models

El artículo revela una vulnerabilidad crítica en los modelos de lenguaje basados en difusión (dLLMs) donde su alineación de seguridad, basada en programas de denoising monotónicos, puede ser fácilmente eludida. Al volver a enmascarar tokens de rechazo e inyectar un prefijo afirmativo, los investigadores lograron altas tasas de éxito de ataque contra dLLMs destacados, exponiendo una falla estructural.

29
RESEARCHarXiv CS.LG·hace 19d

Provably Learning Diffusion Models under the Manifold Hypothesis: Collapse and Refine

Este artículo ofrece una explicación teórica sobre la eficiencia de los modelos de difusión al aprender la función de score para datos de alta dimensión en variedades de baja dimensión. Identifica un mecanismo de "colapso y refinamiento" impulsado por la geometría de la función de score, donde el mapa de eliminación de ruido se proyecta en la variedad de datos y refina la densidad intrínseca.

29
RESEARCHDEV.to AI·10/5/2026

Diffusion models approach AR quality and improve inference speed

Los modelos de lenguaje de difusión están logrando ganancias significativas de rendimiento y reduciendo la brecha con los decodificadores autorregresivos en la velocidad de inferencia. Los nuevos Modelos de Lenguaje de Difusión Introspectivos (I-DLM) abordan problemas previos de consistencia introspectiva y bucles de muestreo ineficientes, mejorando tanto la calidad como la latencia.

28
RESEARCHarXiv CS.LG·hace 21d

Systematic Optimization of Real-Time Diffusion Model Inference on Apple M3 Ultra

Esta investigación optimiza sistemáticamente la inferencia de modelos de difusión en tiempo real en el Apple M3 Ultra, explorando varias técnicas como la conversión CoreML y la cuantificación. El estudio logró 22.7 FPS para la transformación img2img de 512x512 combinando la conversión CoreML del SDXS-512 con una tubería de cámara de 3 hilos.

28
RESEARCHarXiv CS.LG·hace 27d

Steering Without Breaking: Mechanistically Informed Interventions for Discrete Diffusion Language Models

Este artículo investiga las limitaciones de las intervenciones uniformes en los modelos de lenguaje de difusión discreta (DLMs), mostrando que degradan la calidad de la generación controlada. Los autores descubren que diferentes atributos se consolidan en etapas distintas del proceso de denoising, proponiendo un programador adaptativo para concentrar las intervenciones de manera eficiente.

28
RESEARCHarXiv CS.CL·hace 12d

From AR to Diffusion: Efficiently Adapting Large Language Models with Strictly Causal and Elastic Horizons

FLUID es un nuevo framework que adapta eficientemente modelos autorregresivos (AR) al paradigma de difusión para la generación paralela de texto. Permite la inicialización desde modelos tipo GPT e introduce un mecanismo de denoising dinámico, logrando un rendimiento de vanguardia con costos de entrenamiento significativamente menores.

28
RESEARCHarXiv CS.LG·6/4/2026

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models

Este trabalho explora o agendamento de modelos para acelerar os Modelos de Linguagem de Difusão Mascarada (MDLMs), substituindo o modelo completo por um menor em certas etapas de denoising. A pesquisa mostra que as etapas iniciais e finais são mais robustas a essa substituição, permitindo uma redução de até 17% nos FLOPs com degradação mínima na perplexidade generativa.

28
RESEARCHarXiv CS.CL·hace 15d

Learnability-Informed Fine-Tuning of Diffusion Language Models

Esta investigación introduce LIFT, un algoritmo de ajuste fino informado por la "learnability" (capacidad de aprendizaje), diseñado para mejorar las capacidades de razonamiento de los modelos de lenguaje de difusión. LIFT aborda las deficiencias del SFT estándar aprendiendo tokens de forma adaptativa según su dificultad y el contexto disponible en diferentes pasos de tiempo de difusión, mostrando un rendimiento mejorado.

28