← heapsort-ai

model adaptation

4 items

RESEARCHarXiv CS.LG·01/05/2026

Simple Self-Conditioning Adaptation for Masked Diffusion Models

Les modèles de diffusion masqués (MDMs) ignorent les prédictions d'état propre pour les jetons qui restent masqués, limitant le raffinement inter-étapes. Cet article propose les modèles de diffusion masqués auto-conditionnés (SCMDM), une adaptation post-entraînement qui conditionne chaque étape de débruitage sur les prédictions d'état propre précédentes du modèle lui-même. Cela améliore les performances sans changements architecturaux majeurs ni évaluations supplémentaires.

27
RESEARCHarXiv CS.CL·27/04/2026

Where Should LoRA Go? Component-Type Placement in Hybrid Language Models

Cette recherche étudie systématiquement le placement de LoRA dans les modèles de langage hybrides combinant des composants d'attention et récurrents. Elle révèle que l'adaptation du chemin d'attention surpasse constamment l'adaptation du modèle complet avec moins de paramètres, tandis que l'effet de l'adaptation du composant récurrent varie considérablement selon l'architecture hybride.

27
RESEARCHarXiv CS.CL·27/04/2026

Knowledge-driven Augmentation and Retrieval for Integrative Temporal Adaptation

KARITA (Knowledge-driven Augmentation and Retrieval for Integrative Temporal Adaptation) est un système conçu pour relever les défis des décalages temporels dans les modèles d'IA, entraînés sur des données historiques mais déployés sur des données futures. Il intègre une augmentation et une récupération basées sur la connaissance pour capturer divers décalages et exploiter ces informations afin d'améliorer l'adaptation temporelle dans plusieurs domaines.

27