← heapsort-ai

language models

103 items

RESEARCHarXiv CS.CL·il y a 1j

Data-Efficient Autoregressive-to-Diffusion Language Models via On-Policy Distillation

Cet article présente le modèle de langage de diffusion on-policy (OPDLM) pour transformer les modèles autorégressifs (ARLMs) en modèles de langage de diffusion (DLMs). Il aborde les problèmes tels que la perte de connaissances et l'inadéquation entre l'entraînement et l'inférence en utilisant la distillation on-policy (OPD).

60
NEWS↑ trendingReddit r/LocalLLaMA·17/04/2026

Ternary Bonsai: Top intelligence at 1.58 bits

Prism ML a annoncé Ternary Bonsai, une nouvelle famille de modèles de langage de 1,58 bits conçus pour concilier des contraintes de mémoire strictes avec des exigences de haute précision. Disponibles en tailles de 8B, 4B et 1,7B, ces modèles atteignent une empreinte mémoire 9 fois inférieure à celle des modèles 16 bits tout en surpassant la plupart de leurs pairs.

Ternary Bonsai: Top intelligence at 1.58 bits
50
RESEARCH↑ trendingReddit r/LocalLLaMA·il y a 27j

sensenova/SenseNova-U1-A3B-MoT · Hugging Face

SenseNova U1 est une nouvelle série de modèles multimodaux natifs qui unifie la compréhension, le raisonnement et la génération multimodale au sein d'une architecture monolithique. Ces modèles innovants pensent et agissent nativement à travers le langage et la vision, marquant un changement de paradigme fondamental dans l'IA multimodale.

sensenova/SenseNova-U1-A3B-MoT · Hugging Face
42
RESEARCHarXiv CS.CL·il y a 1j

How Language Models Fail: Token-Level Signatures of Committed and Persistent Reasoning Failures

Les échecs dans le raisonnement des modèles de langage émergent à travers des processus distincts qui laissent des signatures identifiables au niveau des tokens. Ces échecs sont caractérisés comme "échec engagé" ou "incertitude persistante", et la compréhension de ces signatures aide à distinguer les réalisations échouées des réussies dans diverses configurations.

40
RESEARCHarXiv CS.CL·22/04/2026

Remask, Don't Replace: Token-to-Mask Refinement in Masked Diffusion Language Models

Cet article propose une nouvelle technique, le remasking Token-to-Mask (T2M), pour affiner les modèles de langage de diffusion masqués tels que LLaDA2.1. Cette méthode corrige les lacunes de l'édition Token-to-Token (T2T) en réinitialisant les jetons suspects à un état de masque pour une reprediction plus précise.

32
RESEARCHarXiv CS.LG·il y a 5j

Self-Distilled Policy Gradient

Cet article présente le Self-Distilled Policy Gradient (SDPG), un nouveau cadre qui améliore l'apprentissage par renforcement à récompense clairsemée grâce à l'autodistillation on-policy. Le SDPG intègre des avantages de vérificateur relatifs au groupe, une autodistillation exacte du vocabulaire complet et une régularisation KL, démontrant une stabilité et des performances améliorées par rapport aux références existantes.

31
RESEARCHarXiv CS.CL·il y a 4j

Predict and Reconstruct: Joint Objectives for Self-Supervised Language Representation Learning

Cet article propose un objectif de pré-entraînement hybride pour les encodeurs de texte, combinant une perte de prédiction d'espace latent de type JEPA avec un objectif standard de modélisation de langage masqué (MLM). Cette approche vise à encourager des représentations ancrées dans une structure sémantique plus profonde plutôt que dans la simple identité des tokens de surface, démontrant des embeddings significativement plus uniformes.

30
RESEARCHarXiv CS.CL·il y a 4j

Generic Triple-Latent Compression with Gated Associative Retrieval

Cette recherche introduit des modèles de séquence génériques à triple latence, qui utilisent un état de jeton courant et une mémoire de paires compressée pour capturer des interactions de jetons d'ordre supérieur. Ces modèles démontrent une amélioration par rapport à une base de référence Transformer sur des benchmarks de modèles de langage, bien qu'une extension de récupération améliore le rappel mais soit plus lente.

30
RESEARCHDEV.to AI·13/04/2026

TALM: Tool Augmented Language Models

TALM (Tool Augmented Language Models) se concentre sur l'intégration d'outils externes avec des modèles de langage volumineux pour augmenter leurs capacités. Cette approche permet aux LLM d'effectuer des tâches complexes plus efficacement en tirant parti de fonctions spécialisées et d'interactions réelles.

30
RESEARCHarXiv CS.CL·il y a 19j

Data Scaling as Progressive Coverage of a Predictive Contribution Spectrum

Cette recherche examine si les lois d'échelle des données réelles sont régies par une couverture progressive d'un spectre latent de contribution prédictive, plutôt que par la seule fréquence des jetons. En utilisant un automate de suffixes et un spectre de contribution prédictive global-KL, l'étude révèle une forte corrélation entre la pente de la queue du spectre et l'exposant d'échelle des données des apprenants GPT, montrant que le rang de troncature effectif s'échelonne logarithmiquement.

29
RESEARCHarXiv CS.CL·13/04/2026

Re-Mask and Redirect: Exploiting Denoising Irreversibility in Diffusion Language Models

Cet article révèle une vulnérabilité critique dans les modèles de langage basés sur la diffusion (dLLMs) où leur alignement de sécurité, reposant sur des calendriers de débruitage monotones, peut être facilement contourné. En masquant à nouveau les jetons de refus et en injectant un préfixe affirmatif, les chercheurs ont obtenu des taux de réussite d'attaque élevés contre des dLLMs proéminents, exposant une faille structurelle.

29
RESEARCHarXiv CS.CL·24/04/2026

GRISP: Guided Recurrent IRI Selection over SPARQL Skeletons

GRISP est une nouvelle méthode de réponse aux questions basée sur SPARQL sur les graphes de connaissances, utilisant un petit modèle de langage (SLM) affiné. Elle génère des squelettes de requêtes SPARQL à partir de questions en langage naturel et les affine en sélectionnant des éléments du graphe, obtenant des résultats de pointe sur les benchmarks Wikidata et Freebase.

29
RESEARCHarXiv CS.CL·il y a 22j

Neural Activation Patterns Across Language Model Architectures: A Comprehensive Analysis of Cognitive Task Performance

Cet article présente une analyse complète des schémas d'activation neuronale à travers six architectures distinctes de grands modèles de langage (LLM), examinant leurs performances sur douze catégories de tâches cognitives. Les résultats révèlent des différences fondamentales dans la manière dont les architectures d'encodeur et de décodeur traitent diverses tâches cognitives, le raisonnement mathématique produisant la plus haute entropie d'attention et les modèles décodeurs présentant une parcimonie significativement plus élevée.

29
RESEARCHarXiv CS.LG·il y a 15j

The Readout Shortcut: Positional Number Copying Dominates Arithmetic CoT Readout in Small Language Models

Cette étude de recherche révèle que les petits modèles de langage (LMs) ajustés par instruction utilisant le Chain-of-Thought (CoT) pour l'arithmétique emploient souvent un raccourci positionnel, copiant le dernier nombre avant le délimiteur de réponse. Ce raccourci domine, même si le raisonnement intermédiaire est correct, influençant significativement la précision de la réponse.

29
RESEARCHarXiv CS.CL·il y a 5j

Discourse-Role Labels as Presentation-Time Variables for Context Use in Language Models

Cette étude examine l'effet des étiquettes de rôle discursif, telles que "Référence" ou "Instruction", sur le comportement des modèles linguistiques. Elle révèle que le taux d'adoption d'informations trompeuses peut varier considérablement (56 à 84 points de pourcentage) selon l'étiquette, les étiquettes comme "Instruction" augmentant l'adoption et "Exemple" la supprimant systématiquement.

28