← heapsort-ai

model adaptation

4 items

RESEARCHarXiv CS.LG·1/5/2026

Simple Self-Conditioning Adaptation for Masked Diffusion Models

Los modelos de difusión enmascarada (MDM) descartan predicciones para tokens que permanecen enmascarados, lo que limita el refinamiento entre pasos. Este artículo propone los Modelos de Difusión Enmascarada Auto-Condicionados (SCMDM), una adaptación post-entrenamiento que condiciona cada paso de denoising en las predicciones de estado limpio anteriores del propio modelo. Esto mejora el rendimiento sin cambios arquitectónicos importantes ni evaluaciones adicionales.

27
RESEARCHarXiv CS.CL·27/4/2026

Where Should LoRA Go? Component-Type Placement in Hybrid Language Models

Esta investigación estudia sistemáticamente la colocación de LoRA en modelos de lenguaje híbridos que combinan atención y componentes recurrentes. Se encuentra que adaptar la vía de atención supera consistentemente la adaptación del modelo completo con muchos menos parámetros, y el efecto de adaptar el núcleo recurrente varía drásticamente según la arquitectura híbrida (secuencial vs. paralela).

27
RESEARCHarXiv CS.CL·27/4/2026

Knowledge-driven Augmentation and Retrieval for Integrative Temporal Adaptation

KARITA (Knowledge-driven Augmentation and Retrieval for Integrative Temporal Adaptation) es un sistema desarrollado para abordar los desafíos de los cambios temporales en los modelos de IA, que se entrenan con datos históricos pero se implementan en datos futuros. Integra la aumentación y recuperación basadas en el conocimiento para capturar diversos cambios y aprovechar las ideas para una adaptación temporal mejorada en múltiples dominios.

27