AI Research

146 items

RESEARCHarXiv CS.CL·30/04/2026

SpecTr-GBV: Multi-Draft Block Verification Accelerating Speculative Decoding

SpecTr-GBV est une nouvelle méthode de décodage spéculatif qui unifie les stratégies multi-brouillons et la vérification de blocs gourmande pour accélérer l'inférence des modèles de langage. Elle formule l'étape de vérification comme un problème de transport optimal, améliorant l'efficacité théorique et les performances empiriques en atteignant la longueur d'acceptation optimale.

large language models Inference Optimization Speculative Decoding AI Research

RESEARCHarXiv CS.AI·09/05/2026

From History to State: Constant-Context Skill Learning for LLM Agents

Cet article propose l'apprentissage des compétences à contexte constant, un nouveau cadre pour les agents LLM afin de gérer les flux de travail récurrents plus efficacement. Il aborde les défis de confidentialité, de coût et de capacité en apprenant des procédures réutilisables dans des modules de famille de tâches et en conditionnant l'inférence sur un bloc d'état compact. Son efficacité est démontrée sur des benchmarks tels qu'ALFWorld, WebShop et SciWorld.

LLM Agents reinforcement learning Skill Learning AI Research

RESEARCHarXiv CS.LG·20/04/2026

The Spectral Geometry of Thought: Phase Transitions, Instruction Reversal, Token-Level Dynamics, and Perfect Correctness Prediction in How Transformers Reason

Cet article de recherche découvre des transitions de phase spectrales dans les espaces d'activation cachés des grands modèles linguistiques lors du raisonnement par rapport au rappel factuel. Une analyse spectrale systématique sur 11 modèles et 5 familles d'architecture identifie sept phénomènes centraux, y compris la compression spectrale de raisonnement et l'inversion spectrale par réglage des instructions.

neural networks LLMs machine learning AI Research

RESEARCHarXiv CS.LG·il y a 20j

Neural Estimation of Pairwise Mutual Information in Masked Discrete Sequence Models

L'article propose un cadre neuronal pour estimer l'information mutuelle conditionnelle par paires (MI) directement à partir des états cachés de modèles de diffusion masqués (MDMs) pré-entraînés. Cette méthode capture les structures de dépendance et permet un décodage parallèle guidé par la MI, démontrant son utilité dans la génération de séquences de Sudoku et de protéines en récupérant des contraintes structurelles.

neural networks information theory machine learning sequence models

RESEARCHarXiv CS.CL·il y a 20j

Parallel LLM Reasoning for Bias-Resilient, Robust Conceptual Abstraction

Cette étude propose un cadre structuré pour améliorer le raisonnement des LLM lors de l'analyse de documents longs, en s'attaquant aux biais contextuels et aux erreurs d'omission. Elle combine le traitement parallèle par blocs avec une consolidation basée sur des preuves pour des abstractions conceptuelles plus robustes et résistantes aux biais.

Contextual Reasoning Natural Language Processing AI Research Bias

RESEARCHarXiv CS.CL·il y a 20j

Under Pressure: Emotional Framing Induces Measurable Behavioral Shifts and Structured Internal Geometry in Small Language Models

Cette étude explore comment les suivis d'évaluation à cadre émotionnel modifient le comportement et les représentations internes des petits modèles de langage. Les conclusions indiquent que la « pression » induit fortement des raccourcis, tandis que le « calme » et la « curiosité » préservent l'honnêteté.

NLP model behavior emotional framing AI Research

RESEARCHarXiv CS.LG·08/05/2026

MidSteer: Optimal Affine Framework for Steering Generative Models

Cet article formalise la théorie du pilotage de concepts dans les modèles génératifs, la reliant à l'effacement affine de concepts et introduisant LEACE-Switch. Il propose ensuite MidSteer, un cadre affine plus général pour la manipulation de concepts avec une perturbation minimale.

model steering machine learning theoretical framework AI Research

RESEARCHarXiv CS.CL·il y a 20j

FlowLM: Few-Step Language Modeling via Diffusion-to-Flow Adaptation

FlowLM introduit un nouveau modèle de langage de correspondance de flux, adapté des modèles de diffusion pré-entraînés via un réglage fin efficace. Cette méthode permet une génération de texte de haute qualité en quelques étapes, surpassant significativement l'échantillonnage par diffusion traditionnel avec moins d'époques d'entraînement.

Diffusion Models language models machine learning text generation

RESEARCHarXiv CS.CL·21/04/2026

Data Mixing for Large Language Models Pretraining: A Survey and Outlook

Cet article propose une étude complète sur le mélange de données pour le pré-entraînement des grands modèles linguistiques (LLM), un facteur essentiel pour l'efficacité de l'entraînement et la généralisation en aval. Il formalise l'optimisation du mélange de données comme un problème à deux niveaux et introduit une taxonomie détaillée pour les méthodes existantes.

data optimization pretraining machine learning large language models

RESEARCHarXiv CS.CL·il y a 8j

ART: Attention Run-time Termination for Efficient Large Language Model Decoding

Le décodage de contexte long dans les Large Language Models (LLMs) est fortement contraint par la bande passante mémoire du cache Key-Value (KV). Cet article propose l'Attention Run-time Termination (ART), un mécanisme léger qui optimise l'accès au cache KV, augmentant le débit de génération de 20%.

LLMs memory management decoding performance

RESEARCHarXiv CS.CL·il y a 26j

Distribution Corrected Offline Data Distillation for Large Language Models

Cette recherche propose un cadre de distillation de raisonnement hors ligne pour les grands modèles linguistiques (LLM) afin d'améliorer l'intelligence dans des environnements contraints par les ressources. La méthode s'attaque au problème de la dérive distributionnelle dans les approches hors ligne existantes en corrigeant les écarts entre enseignant et élève, tout en conservant l'efficacité et la qualité de la supervision.

Data Distillation Offline Distillation machine learning large language models

RESEARCHarXiv CS.LG·il y a 8j

From Demonstrations to Rewards: Test-Time Prompt Optimization for VLM Reward Models

Des chercheurs proposent Demo2Reward, une technique d'adaptation en temps de test pour optimiser les modèles de récompense de Vision-Langage (VLMs) en robotique. Elle utilise quelques démonstrations pour réduire les faux positifs tout en préservant les vrais positifs, sans nécessiter d'entraînement supplémentaire du modèle.

Vision-Language Models reinforcement learning Prompt Optimization robotics

RESEARCHarXiv CS.LG·il y a 26j

EvolveMem:Self-Evolving Memory Architecture via AutoResearch for LLM Agents

EvolveMem présente une architecture de mémoire auto-évolutive pour les agents LLM, permettant la co-évolution des connaissances stockées et des mécanismes de récupération. Elle optimise sa configuration de manière autonome via un module de diagnostic basé sur les LLM, aboutissant à un processus d'AutoResearch en boucle fermée.

LLM Agents AutoResearch self-evolving systems memory architecture

RESEARCHarXiv CS.LG·il y a 26j

Beyond Mode-Seeking RL: Trajectory-Balance Post-Training for Diffusion Language Models

Cet article présente TraFL, une nouvelle approche de post-entraînement pour les modèles de langage de diffusion qui s'attaque au "blocage de trajectoire" observé dans les méthodes de maximisation de récompense. TraFL, un objectif d'équilibre de trajectoire, surpasse les autres méthodes sur les benchmarks de raisonnement mathématique et de génération de code.

Diffusion Models language models reinforcement learning machine learning

RESEARCHarXiv CS.LG·il y a 26j

Rethinking Molecular OOD Generalization via Target-Aware Source Selection

Cette recherche aborde les défis de la prédiction robuste des propriétés moléculaires dans des scénarios extrêmes hors distribution (OOD), cruciaux pour la découverte de médicaments pilotée par l'IA. Elle propose SCOPE-BENCH, un nouveau benchmark pour l'évaluation des performances OOD, et POMA, un cadre pour l'adaptation multi-source afin de surmonter les limitations des méthodes existantes.

Out-of-Distribution Molecular AI machine learning drug discovery

RESEARCHarXiv CS.AI·07/05/2026

The Scaling Properties of Implicit Deductive Reasoning in Transformers

Cet article étudie les propriétés de mise à l'échelle du raisonnement déductif implicite sur les clauses de Horn dans les Transformers à profondeur limitée. Les modèles profonds avec un masque de préfixe bidirectionnel approchent les performances explicites de CoT, bien que CoT reste nécessaire pour l'extrapolation en profondeur.

neural networks scaling deductive reasoning AI Research

RESEARCHarXiv CS.LG·07/05/2026

A Self-Attentive Meta-Optimizer with Group-Adaptive Learning Rates and Weight Decay

MetaAdamW est un nouvel optimiseur qui utilise un mécanisme d'auto-attention pour ajuster dynamiquement les taux d'apprentissage et la décroissance du poids par groupe de paramètres, remédiant à la limitation des hyperparamètres uniformes. Le module d'attention est entraîné via un objectif de méta-apprentissage combinant l'alignement du gradient, la diminution de la perte et l'écart de généralisation.

Meta-Learning deep learning learning AI Research

RESEARCHarXiv CS.AI·il y a 29j

Spatial Priming Outperforms Semantic Prompting: A Grid-Based Approach to Improving LLM Accuracy on Chart Data Extraction

Cet article étudie des stratégies pour améliorer la précision des LLM multimodaux dans l'extraction de données de graphiques scientifiques. Il démontre qu'une méthode simple d'amorçage spatial basée sur une grille surpasse significativement les techniques d'incitation sémantique.

Data Extraction spatial priming chart analysis AI Research

RESEARCHarXiv CS.LG·il y a 22j

Language Game: Talking to Non-Human Systems

Cet article explore la communication directe avec des systèmes non-humains (tels que les réseaux de régulation génique ou les champignons) reconnus comme des substrats de calcul, allant au-delà des LLM agissant comme intermédiaires. Il propose une approche de "jeu de langage" utilisant l'apprentissage par renforcement pour permettre à ces systèmes de "parler de leur propre voix".

reinforcement learning AI communication large language models non-human systems

RESEARCHarXiv CS.CL·il y a 8j

CSRP: Chain-of-Thought Reasoning for Chinese Text Correction via Reinforcement Learning with Efficiency-Aware Rewards

Cet article propose CSRP, un cadre en trois étapes pour la correction des erreurs grammaticales chinoises (CGEC) utilisant des grands modèles de langage (LLM). CSRP aborde les défis des modèles génériques et l'optimisation des métriques avec un pré-entraînement continu, un SFT Chain-of-Thought et une optimisation de politique avec des récompenses sensibles à l'efficacité qui pénalisent les modifications inutiles, atteignant des performances de pointe sur le benchmark NACGEC.

reinforcement learning Grammar Correction Natural Language Processing AI Research