language models

103 items

RESEARCHarXiv CS.CL·il y a 1j

Data-Efficient Autoregressive-to-Diffusion Language Models via On-Policy Distillation

Cet article présente le modèle de langage de diffusion on-policy (OPDLM) pour transformer les modèles autorégressifs (ARLMs) en modèles de langage de diffusion (DLMs). Il aborde les problèmes tels que la perte de connaissances et l'inadéquation entre l'entraînement et l'inférence en utilisant la distillation on-policy (OPD).

Diffusion Models language models AI models machine learning

NEWS↑ trendingReddit r/LocalLLaMA·17/04/2026

Ternary Bonsai: Top intelligence at 1.58 bits

Prism ML a annoncé Ternary Bonsai, une nouvelle famille de modèles de langage de 1,58 bits conçus pour concilier des contraintes de mémoire strictes avec des exigences de haute précision. Disponibles en tailles de 8B, 4B et 1,7B, ces modèles atteignent une empreinte mémoire 9 fois inférieure à celle des modèles 16 bits tout en surpassant la plupart de leurs pairs.

Model Compression language models Efficient AI

Ternary Bonsai: Top intelligence at 1.58 bits

RESEARCH↑ trendingReddit r/LocalLLaMA·il y a 27j

sensenova/SenseNova-U1-A3B-MoT · Hugging Face

SenseNova U1 est une nouvelle série de modèles multimodaux natifs qui unifie la compréhension, le raisonnement et la génération multimodale au sein d'une architecture monolithique. Ces modèles innovants pensent et agissent nativement à travers le langage et la vision, marquant un changement de paradigme fondamental dans l'IA multimodale.

language models multimodal AI unified architecture SenseNova

sensenova/SenseNova-U1-A3B-MoT · Hugging Face

ARTICLE↑ trendingReddit r/MachineLearning·21/04/2026

Bulding my own Diffusion Language Model from scratch was easier than I thought [P]

L'auteur a construit un modèle de langage de diffusion à partir de zéro pour mieux comprendre des concepts complexes, sans l'aide de code généré par l'IA. Il a entraîné le modèle de 7,5M de paramètres sur le petit jeu de données de Shakespeare et a partagé le code sur GitHub.

Diffusion Models language models personal-project machine learning

RESEARCHarXiv CS.CL·il y a 1j

How Language Models Fail: Token-Level Signatures of Committed and Persistent Reasoning Failures

Les échecs dans le raisonnement des modèles de langage émergent à travers des processus distincts qui laissent des signatures identifiables au niveau des tokens. Ces échecs sont caractérisés comme "échec engagé" ou "incertitude persistante", et la compréhension de ces signatures aide à distinguer les réalisations échouées des réussies dans diverses configurations.

language models research Reasoning AI failures

ARTICLEKDNuggets·il y a 4j

A Deep Dive into Calibration of Language Models: Platt Scaling, Isotonic Regression, Temperature Scaling

Ce contenu explore trois méthodes post-hoc – Platt Scaling, Isotonic Regression et Temperature Scaling – conçues pour améliorer la calibration des modèles de langage. Ces techniques visent à réduire l'écart entre la confiance prédite par un modèle et sa précision réelle.

language models Calibration learning machine learning

A Deep Dive into Calibration of Language Models: Platt Scaling, Isotonic Regression, Temperature Scaling

RESEARCHarXiv CS.CL·22/04/2026

Remask, Don't Replace: Token-to-Mask Refinement in Masked Diffusion Language Models

Cet article propose une nouvelle technique, le remasking Token-to-Mask (T2M), pour affiner les modèles de langage de diffusion masqués tels que LLaDA2.1. Cette méthode corrige les lacunes de l'édition Token-to-Token (T2T) en réinitialisant les jetons suspects à un état de masque pour une reprediction plus précise.

Diffusion Models language models error correction natural language processing

RESEARCHarXiv CS.LG·il y a 5j

Self-Distilled Policy Gradient

Cet article présente le Self-Distilled Policy Gradient (SDPG), un nouveau cadre qui améliore l'apprentissage par renforcement à récompense clairsemée grâce à l'autodistillation on-policy. Le SDPG intègre des avantages de vérificateur relatifs au groupe, une autodistillation exacte du vocabulaire complet et une régularisation KL, démontrant une stabilité et des performances améliorées par rapport aux références existantes.

language models deep learning reinforcement learning Policy Gradient

RESEARCHarXiv CS.CL·il y a 14j

AERIC: Anticipatory Hidden-State Monitoring for Implicit Harmful Dialogue

Cet article présente AERIC, une nouvelle approche basée sur les états cachés pour le suivi anticipatif et en un seul passage des dialogues nuisibles implicites dans les modèles de langage. Il vise à détecter les risques potentiels suffisamment tôt pour éviter l'exposition de continuations préjudiciables.

harmful dialogue language models security AI safety

RESEARCHarXiv CS.CL·il y a 4j

Predict and Reconstruct: Joint Objectives for Self-Supervised Language Representation Learning

Cet article propose un objectif de pré-entraînement hybride pour les encodeurs de texte, combinant une perte de prédiction d'espace latent de type JEPA avec un objectif standard de modélisation de langage masqué (MLM). Cette approche vise à encourager des représentations ancrées dans une structure sémantique plus profonde plutôt que dans la simple identité des tokens de surface, démontrant des embeddings significativement plus uniformes.

language models deep learning self-supervised learning machine learning

RESEARCHarXiv CS.CL·il y a 4j

Generic Triple-Latent Compression with Gated Associative Retrieval

Cette recherche introduit des modèles de séquence génériques à triple latence, qui utilisent un état de jeton courant et une mémoire de paires compressée pour capturer des interactions de jetons d'ordre supérieur. Ces modèles démontrent une amélioration par rapport à une base de référence Transformer sur des benchmarks de modèles de langage, bien qu'une extension de récupération améliore le rappel mais soit plus lente.

language models latent models sequence models associative retrieval

RESEARCHDEV.to AI·13/04/2026

TALM: Tool Augmented Language Models

TALM (Tool Augmented Language Models) se concentre sur l'intégration d'outils externes avec des modèles de langage volumineux pour augmenter leurs capacités. Cette approche permet aux LLM d'effectuer des tâches complexes plus efficacement en tirant parti de fonctions spécialisées et d'interactions réelles.

language models LLMs NLP Tool Augmentation

RESEARCHarXiv CS.CL·il y a 19j

Data Scaling as Progressive Coverage of a Predictive Contribution Spectrum

Cette recherche examine si les lois d'échelle des données réelles sont régies par une couverture progressive d'un spectre latent de contribution prédictive, plutôt que par la seule fréquence des jetons. En utilisant un automate de suffixes et un spectre de contribution prédictive global-KL, l'étude révèle une forte corrélation entre la pente de la queue du spectre et l'exposant d'échelle des données des apprenants GPT, montrant que le rang de troncature effectif s'échelonne logarithmiquement.

language models data scaling machine learning predictive models

RESEARCHarXiv CS.CL·13/04/2026

Re-Mask and Redirect: Exploiting Denoising Irreversibility in Diffusion Language Models

Cet article révèle une vulnérabilité critique dans les modèles de langage basés sur la diffusion (dLLMs) où leur alignement de sécurité, reposant sur des calendriers de débruitage monotones, peut être facilement contourné. En masquant à nouveau les jetons de refus et en injectant un préfixe affirmatif, les chercheurs ont obtenu des taux de réussite d'attaque élevés contre des dLLMs proéminents, exposant une faille structurelle.

Diffusion Models language models vulnerability Exploitation

RESEARCHarXiv CS.AI·il y a 20j

Learn-by-Wire Training Control Governance: Bounded Autonomous Training Under Stress for Stability and Efficiency

Cet article introduit Learn-by-Wire Guard (LBW-Guard), une couche de gouvernance de contrôle d'entraînement autonome pour les modèles de langage. Il vise à améliorer la stabilité et l'efficacité de l'entraînement, réduisant considérablement la perplexité finale.

language models deep learning AI training model stability

RESEARCHarXiv CS.CL·24/04/2026

GRISP: Guided Recurrent IRI Selection over SPARQL Skeletons

GRISP est une nouvelle méthode de réponse aux questions basée sur SPARQL sur les graphes de connaissances, utilisant un petit modèle de langage (SLM) affiné. Elle génère des squelettes de requêtes SPARQL à partir de questions en langage naturel et les affine en sélectionnant des éléments du graphe, obtenant des résultats de pointe sur les benchmarks Wikidata et Freebase.

language models Knowledge Graphs SPARQL Question Answering

RESEARCHarXiv CS.AI·il y a 29j

When Does a Language Model Commit? A Finite-Answer Theory of Pre-Verbalization Commitment

Cette recherche introduit une théorie de la "stabilisation de la préférence de réponse finie" pour déterminer quand la préférence de réponse d'un modèle linguistique devient stable. Elle démontre que cette stabilisation se produit souvent avant que la réponse ne soit verbalisable, avec une avance significative.

language models cognitive science machine learning NLP

RESEARCHarXiv CS.CL·il y a 22j

Neural Activation Patterns Across Language Model Architectures: A Comprehensive Analysis of Cognitive Task Performance

Cet article présente une analyse complète des schémas d'activation neuronale à travers six architectures distinctes de grands modèles de langage (LLM), examinant leurs performances sur douze catégories de tâches cognitives. Les résultats révèlent des différences fondamentales dans la manière dont les architectures d'encodeur et de décodeur traitent diverses tâches cognitives, le raisonnement mathématique produisant la plus haute entropie d'attention et les modèles décodeurs présentant une parcimonie significativement plus élevée.

neural networks language models cognitive science Model Analysis

RESEARCHarXiv CS.LG·il y a 15j

The Readout Shortcut: Positional Number Copying Dominates Arithmetic CoT Readout in Small Language Models

Cette étude de recherche révèle que les petits modèles de langage (LMs) ajustés par instruction utilisant le Chain-of-Thought (CoT) pour l'arithmétique emploient souvent un raccourci positionnel, copiant le dernier nombre avant le délimiteur de réponse. Ce raccourci domine, même si le raisonnement intermédiaire est correct, influençant significativement la précision de la réponse.

language models CoT Prompting Arithmetic

RESEARCHarXiv CS.CL·il y a 5j

Discourse-Role Labels as Presentation-Time Variables for Context Use in Language Models

Cette étude examine l'effet des étiquettes de rôle discursif, telles que "Référence" ou "Instruction", sur le comportement des modèles linguistiques. Elle révèle que le taux d'adoption d'informations trompeuses peut varier considérablement (56 à 84 points de pourcentage) selon l'étiquette, les étiquettes comme "Instruction" augmentant l'adoption et "Exemple" la supprimant systématiquement.

language models Context NLP model behavior