← heapsort-ai

AI Research

146 items

RESEARCHarXiv CS.CL·il y a 7j

SENSE: Semantic Embedding Navigation with Soft-gated Evaluation for Retrieval-based Speculative Decoding

Cet article propose SENSE (Semantic Embedding Navigation with Soft-gated Evaluation) pour améliorer le Décodage Spéculatif Basé sur la Récupération (RSD) pour les LLM. SENSE s'attaque aux dépendances lexicales rigides du RSD en utilisant un alignement sémantique robuste et un module d'évaluation à porte souple pour valider l'équivalence sémantique.

29
RESEARCHarXiv CS.LG·il y a 13j

GEM: Geometric Entropy Mixing for Optimal LLM Data Curation

Cet article présente GEM (Geometric Entropy Mixing), un nouveau cadre pour la curation de données LLM qui reformule le problème comme un problème variationnel sur l'hypersphère. GEM optimise la composition des données pour le pré-entraînement des LLM, surmontant les défauts de catégorisation et découvrant des structures sémantiques équilibrées.

29
ARTICLE↑ trendingReddit r/MachineLearning·16/04/2026

Camera-ready paranoia [D]

Un utilisateur exprime une "paranoïa de version finale" après avoir soumis son article à CVPRW, craignant un rejet dû à d'éventuelles erreurs malgré l'utilisation d'un outil de validation PDF. Il cherche à savoir quand la confirmation de l'inclusion dans les actes sera disponible, son statut étant "En production".

29
RESEARCHarXiv CS.CL·06/04/2026

PolyJarvis: LLM Agent for Autonomous Polymer MD Simulations

PolyJarvis é um agente LLM que automatiza simulações de dinâmica molecular de polímeros para prever propriedades a partir de linguagem natural, utilizando a plataforma RadonPy. O sistema executa tarefas desde a construção do monômero até o cálculo de propriedades, mostrando previsões precisas de densidade e módulos de elasticidade para polímeros como aPS e PMMA.

29
RESEARCHDEV.to AI·il y a 18j

Hugging Face: New Research Highlights Value of Specialized AI Models

Hugging Face a publié une recherche de Dharma AI le 22 mai 2026, soulignant que les modèles d'IA spécialisés peuvent surpasser les modèles plus grands et à usage général dans des tâches spécifiques. L'étude suggère un changement stratégique dans l'acquisition d'IA, mettant l'accent sur les performances et l'efficacité spécifiques à la tâche.

29
RESEARCHarXiv CS.CL·il y a 5j

Discourse-Role Labels as Presentation-Time Variables for Context Use in Language Models

Cette étude examine l'effet des étiquettes de rôle discursif, telles que "Référence" ou "Instruction", sur le comportement des modèles linguistiques. Elle révèle que le taux d'adoption d'informations trompeuses peut varier considérablement (56 à 84 points de pourcentage) selon l'étiquette, les étiquettes comme "Instruction" augmentant l'adoption et "Exemple" la supprimant systématiquement.

28
RESEARCHDEV.to AI·17/04/2026

Logical Neural Networks

Les Réseaux Neuronaux Logiques représentent un domaine de recherche visant à intégrer le raisonnement symbolique et la reconnaissance de formes des réseaux neuronaux. Ce domaine explore comment combiner la représentation explicite des connaissances et l'inférence logique avec les capacités d'apprentissage des modèles connexionnistes.

28
RESEARCHarXiv CS.CL·20/04/2026

Brain Score Tracks Shared Properties of Languages: Evidence from Many Natural Languages and Structured Sequences

Cette recherche étudie la similitude entre le traitement des modèles de langage et le traitement du langage humain à l'aide du cadre Brain Score. Les résultats montrent que les LMs entraînés sur diverses langues naturelles et même sur des données structurées (génome humain, Python) présentent des performances Brain Score similaires, suggérant que la métrique capture la capacité d'extraction de structure commune.

28
RESEARCHarXiv CS.CL·04/05/2026

Timing is Everything: Temporal Scaffolding of Semantic Surprise in Humor

Cette recherche propose le cadre Dual Prediction Violation (DPV) pour expliquer l'humour, soulignant l'interaction entre le contenu et le timing. En analysant 828 performances de stand-up chinoises, elle révèle que les caractéristiques temporelles, notamment les pics de violations sémantiques et les pauses systématiques, prédisent l'appréciation du public de manière plus significative que la seule incongruité sémantique.

28
RESEARCHarXiv CS.LG·il y a 21j

A Structural Threshold in Decision Capacity Governs Collapse in Self-Play Reinforcement Learning

Cet article montre qu'un seuil dans la capacité de décision régit l'effondrement des agents d'apprentissage par renforcement en auto-apprentissage sous des perturbations asymétriques. L'élimination de toutes les décisions contingentes à portée positive entraîne un effondrement rapide, tandis que la conservation d'une seule de ces décisions empêche cet effondrement.

28
RESEARCHarXiv CS.CL·il y a 5j

When Retrieval Doesn't Help: A Large-Scale Study of Biomedical RAG

Une étude à grande échelle réévalue la Génération Augmentée par Récupération (RAG) dans la réponse aux questions médicales, ne trouvant que des améliorations faibles et inconsistantes par rapport aux bases de référence sans récupération. Elle suggère que le choix du modèle de base est plus critique que les méthodes de récupération, et le principal goulot d'étranglement est la capacité du modèle à utiliser efficacement les preuves récupérées.

28
RESEARCHarXiv CS.CL·il y a 5j

SaliMory: Orchestrating Cognitive Memory for Conversational Agents

SALIMORY est un framework qui forme un modèle linguistique unique pour gérer la mémoire structurée cognitivement des agents conversationnels, résolvant les problèmes des méthodes existantes. Il utilise une récompense de processus hiérarchique et un affinement contrastif pour améliorer la précision et la personnalisation, tout en réduisant les échecs liés à la mémoire.

28
RESEARCHarXiv CS.CL·il y a 19j

Long-Context Reasoning Through Proxy-Based Chain-of-Thought Tuning

Malgré la prise en charge d'entrées étendues, les grands modèles linguistiques ont des performances médiocres sur les tâches de raisonnement à contexte long. ProxyCoT est un nouveau cadre d'entraînement qui transfère les capacités de raisonnement des contextes proxy courts aux contextes longs complets, surpassant les références solides.

28
RESEARCHarXiv CS.CL·il y a 27j

Instructions shape Production of Language, not Processing

Cet article de recherche explore un mécanisme centré sur la production dans les modèles de langage, révélant une asymétrie entre le traitement et la production du langage. Il montre que les instructions façonnent significativement l'information dans les tokens de sortie, mais pas dans les tokens d'échantillon, avec une forte corrélation avec le comportement du modèle.

28
RESEARCHarXiv CS.LG·il y a 27j

Steering Without Breaking: Mechanistically Informed Interventions for Discrete Diffusion Language Models

Cet article examine les limites des interventions uniformes dans les modèles de langage à diffusion discrète (DLMs), démontrant qu'elles dégradent la qualité de la génération contrôlée. Les auteurs constatent que différents attributs se stabilisent à des étapes distinctes du processus de débruitage, proposant un planificateur adaptatif pour concentrer les interventions efficacement.

28
RESEARCHarXiv CS.CL·il y a 12j

From AR to Diffusion: Efficiently Adapting Large Language Models with Strictly Causal and Elastic Horizons

FLUID est un nouveau framework qui adapte efficacement les modèles autorégressifs (AR) au paradigme de diffusion pour la génération de texte parallèle. Il permet l'initialisation à partir de modèles de style GPT et introduit un mécanisme de dénoising dynamique, atteignant des performances de pointe avec des coûts d'entraînement considérablement réduits.

28
RESEARCHarXiv CS.LG·il y a 22j

TeamTR: Trust-Region Fine-Tuning for Multi-Agent LLM Coordination

Cet article propose TeamTR, un cadre de région de confiance pour l'ajustement fin des systèmes LLM multi-agents, s'attaquant aux défaillances structurelles de l'ajustement séquentiel. Il prouve que l'évaluation de l'occupation obsolète entraîne une pénalité quadratique avec le nombre d'agents et améliore les performances de 7,1% en moyenne.

28
RESEARCHarXiv CS.LG·il y a 15j

Reading Calibrated Uncertainty from Language Model Trajectories

Cet article de recherche propose une nouvelle méthode pour quantifier l'incertitude dans les modèles de langage en traçant le chemin cumulatif des mises à jour MLP par couche. En extrayant onze caractéristiques géométriques invariantes à l'échelle, une sonde linéaire clairsemée surpasse la probabilité maximale de softmax dans l'évaluation de l'incertitude.

28
RESEARCHarXiv CS.CL·il y a 15j

RAS: Reflection-Augmented Scaling with In-Context Learning for Executable Cypher Query Generation

Cette étude introduit le Reflection-Augmented Scaling (RAS) pour la génération de requêtes Cypher exécutables, en exploitant les retours d'exécution via l'apprentissage en contexte. Le RAS réduit le taux d'erreur d'exécution des requêtes de 41 à 50 %, surpassant les méthodes de mise à l'échelle indépendantes.

28
RESEARCHarXiv CS.CL·20/04/2026

DALM: A Domain-Algebraic Language Model via Three-Phase Structured Generation

DALM (Domain-Algebraic Language Model) est proposé pour résoudre l'interférence de connaissances dans les LLM en remplaçant la génération de jetons non contrainte par un dénoisement structuré sur un treillis de domaines. Il suit un chemin de génération en trois phases (incertitude de domaine, de relation et de concept) sous des contraintes algébriques explicites, empêchant la contamination inter-domaine.

27