← heapsort-ai

AI Research

146 items

RESEARCHarXiv CS.CL·30/04/2026

SpecTr-GBV: Multi-Draft Block Verification Accelerating Speculative Decoding

SpecTr-GBV est une nouvelle méthode de décodage spéculatif qui unifie les stratégies multi-brouillons et la vérification de blocs gourmande pour accélérer l'inférence des modèles de langage. Elle formule l'étape de vérification comme un problème de transport optimal, améliorant l'efficacité théorique et les performances empiriques en atteignant la longueur d'acceptation optimale.

27
RESEARCHarXiv CS.AI·09/05/2026

From History to State: Constant-Context Skill Learning for LLM Agents

Cet article propose l'apprentissage des compétences à contexte constant, un nouveau cadre pour les agents LLM afin de gérer les flux de travail récurrents plus efficacement. Il aborde les défis de confidentialité, de coût et de capacité en apprenant des procédures réutilisables dans des modules de famille de tâches et en conditionnant l'inférence sur un bloc d'état compact. Son efficacité est démontrée sur des benchmarks tels qu'ALFWorld, WebShop et SciWorld.

27
RESEARCHarXiv CS.LG·20/04/2026

The Spectral Geometry of Thought: Phase Transitions, Instruction Reversal, Token-Level Dynamics, and Perfect Correctness Prediction in How Transformers Reason

Cet article de recherche découvre des transitions de phase spectrales dans les espaces d'activation cachés des grands modèles linguistiques lors du raisonnement par rapport au rappel factuel. Une analyse spectrale systématique sur 11 modèles et 5 familles d'architecture identifie sept phénomènes centraux, y compris la compression spectrale de raisonnement et l'inversion spectrale par réglage des instructions.

27
RESEARCHarXiv CS.LG·il y a 20j

Neural Estimation of Pairwise Mutual Information in Masked Discrete Sequence Models

L'article propose un cadre neuronal pour estimer l'information mutuelle conditionnelle par paires (MI) directement à partir des états cachés de modèles de diffusion masqués (MDMs) pré-entraînés. Cette méthode capture les structures de dépendance et permet un décodage parallèle guidé par la MI, démontrant son utilité dans la génération de séquences de Sudoku et de protéines en récupérant des contraintes structurelles.

27
RESEARCHarXiv CS.CL·il y a 20j

Parallel LLM Reasoning for Bias-Resilient, Robust Conceptual Abstraction

Cette étude propose un cadre structuré pour améliorer le raisonnement des LLM lors de l'analyse de documents longs, en s'attaquant aux biais contextuels et aux erreurs d'omission. Elle combine le traitement parallèle par blocs avec une consolidation basée sur des preuves pour des abstractions conceptuelles plus robustes et résistantes aux biais.

27
RESEARCHarXiv CS.CL·il y a 20j

Under Pressure: Emotional Framing Induces Measurable Behavioral Shifts and Structured Internal Geometry in Small Language Models

Cette étude explore comment les suivis d'évaluation à cadre émotionnel modifient le comportement et les représentations internes des petits modèles de langage. Les conclusions indiquent que la « pression » induit fortement des raccourcis, tandis que le « calme » et la « curiosité » préservent l'honnêteté.

27
RESEARCHarXiv CS.CL·il y a 20j

FlowLM: Few-Step Language Modeling via Diffusion-to-Flow Adaptation

FlowLM introduit un nouveau modèle de langage de correspondance de flux, adapté des modèles de diffusion pré-entraînés via un réglage fin efficace. Cette méthode permet une génération de texte de haute qualité en quelques étapes, surpassant significativement l'échantillonnage par diffusion traditionnel avec moins d'époques d'entraînement.

27
RESEARCHarXiv CS.CL·21/04/2026

Data Mixing for Large Language Models Pretraining: A Survey and Outlook

Cet article propose une étude complète sur le mélange de données pour le pré-entraînement des grands modèles linguistiques (LLM), un facteur essentiel pour l'efficacité de l'entraînement et la généralisation en aval. Il formalise l'optimisation du mélange de données comme un problème à deux niveaux et introduit une taxonomie détaillée pour les méthodes existantes.

27
RESEARCHarXiv CS.CL·il y a 26j

Distribution Corrected Offline Data Distillation for Large Language Models

Cette recherche propose un cadre de distillation de raisonnement hors ligne pour les grands modèles linguistiques (LLM) afin d'améliorer l'intelligence dans des environnements contraints par les ressources. La méthode s'attaque au problème de la dérive distributionnelle dans les approches hors ligne existantes en corrigeant les écarts entre enseignant et élève, tout en conservant l'efficacité et la qualité de la supervision.

27
RESEARCHarXiv CS.LG·il y a 8j

From Demonstrations to Rewards: Test-Time Prompt Optimization for VLM Reward Models

Des chercheurs proposent Demo2Reward, une technique d'adaptation en temps de test pour optimiser les modèles de récompense de Vision-Langage (VLMs) en robotique. Elle utilise quelques démonstrations pour réduire les faux positifs tout en préservant les vrais positifs, sans nécessiter d'entraînement supplémentaire du modèle.

27
RESEARCHarXiv CS.LG·il y a 26j

EvolveMem:Self-Evolving Memory Architecture via AutoResearch for LLM Agents

EvolveMem présente une architecture de mémoire auto-évolutive pour les agents LLM, permettant la co-évolution des connaissances stockées et des mécanismes de récupération. Elle optimise sa configuration de manière autonome via un module de diagnostic basé sur les LLM, aboutissant à un processus d'AutoResearch en boucle fermée.

27
RESEARCHarXiv CS.LG·il y a 26j

Beyond Mode-Seeking RL: Trajectory-Balance Post-Training for Diffusion Language Models

Cet article présente TraFL, une nouvelle approche de post-entraînement pour les modèles de langage de diffusion qui s'attaque au "blocage de trajectoire" observé dans les méthodes de maximisation de récompense. TraFL, un objectif d'équilibre de trajectoire, surpasse les autres méthodes sur les benchmarks de raisonnement mathématique et de génération de code.

27
RESEARCHarXiv CS.LG·il y a 26j

Rethinking Molecular OOD Generalization via Target-Aware Source Selection

Cette recherche aborde les défis de la prédiction robuste des propriétés moléculaires dans des scénarios extrêmes hors distribution (OOD), cruciaux pour la découverte de médicaments pilotée par l'IA. Elle propose SCOPE-BENCH, un nouveau benchmark pour l'évaluation des performances OOD, et POMA, un cadre pour l'adaptation multi-source afin de surmonter les limitations des méthodes existantes.

27
RESEARCHarXiv CS.LG·07/05/2026

A Self-Attentive Meta-Optimizer with Group-Adaptive Learning Rates and Weight Decay

MetaAdamW est un nouvel optimiseur qui utilise un mécanisme d'auto-attention pour ajuster dynamiquement les taux d'apprentissage et la décroissance du poids par groupe de paramètres, remédiant à la limitation des hyperparamètres uniformes. Le module d'attention est entraîné via un objectif de méta-apprentissage combinant l'alignement du gradient, la diminution de la perte et l'écart de généralisation.

27
RESEARCHarXiv CS.LG·il y a 22j

Language Game: Talking to Non-Human Systems

Cet article explore la communication directe avec des systèmes non-humains (tels que les réseaux de régulation génique ou les champignons) reconnus comme des substrats de calcul, allant au-delà des LLM agissant comme intermédiaires. Il propose une approche de "jeu de langage" utilisant l'apprentissage par renforcement pour permettre à ces systèmes de "parler de leur propre voix".

27
RESEARCHarXiv CS.CL·il y a 8j

CSRP: Chain-of-Thought Reasoning for Chinese Text Correction via Reinforcement Learning with Efficiency-Aware Rewards

Cet article propose CSRP, un cadre en trois étapes pour la correction des erreurs grammaticales chinoises (CGEC) utilisant des grands modèles de langage (LLM). CSRP aborde les défis des modèles génériques et l'optimisation des métriques avec un pré-entraînement continu, un SFT Chain-of-Thought et une optimisation de politique avec des récompenses sensibles à l'efficacité qui pénalisent les modifications inutiles, atteignant des performances de pointe sur le benchmark NACGEC.

27