← heapsort-ai

LLMs

722 items

RESEARCHarXiv CS.LG·07/05/2026

EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation

Cette recherche présente EdgeRazor, un cadre léger conçu pour déployer les grands modèles de langage sur des appareils à ressources limitées. Il utilise une distillation de quantification consciente à précision mixte pour convertir les modèles à pleine précision en formats à bits inférieurs, surmontant les limitations des méthodes de quantification précédentes.

27
RESEARCHarXiv CS.AI·il y a 29j

MemQ: Integrating Q-Learning into Self-Evolving Memory Agents over Provenance DAGs

MemQ intègre les traces d'éligibilité TD($\lambda$) aux valeurs Q de la mémoire, propageant le crédit via un DAG de provenance pour tenir compte des dépendances entre les mémoires. Cette approche améliore considérablement la capacité des agents LLM à accumuler et récupérer de l'expérience, atteignant des taux de réussite élevés sur divers benchmarks.

27
RESEARCHarXiv CS.AI·il y a 29j

On Distinguishing Capability Elicitation from Capability Creation in Post-Training: A Free-Energy Perspective

Cette recherche propose de distinguer l'élicitation de capacités de la création de capacités dans le post-entraînement des grands modèles linguistiques. Elle soutient que l'élicitation repondère les comportements existants au sein du support accessible d'un modèle, tandis que la création modifie ce support, développant cette idée à travers une perspective d'énergie libre.

27
RESEARCHarXiv CS.AI·11/05/2026

CASCADE: Case-Based Continual Adaptation for Large Language Models During Deployment

Cet article formalise l'Apprentissage en Temps de Déploiement (DTL) comme une nouvelle étape pour les LLM, leur permettant de s'adapter continuellement à partir de l'expérience post-entraînement sans modifier les paramètres du modèle. Il introduit CASCADE, un cadre qui dote les agents LLM d'une mémoire épisodique explicite et évolutive, formalisant la réutilisation d'expérience comme un problème de bandit contextuel.

27
RESEARCHarXiv CS.AI·il y a 18j

Benchmarking and Improving Monitors for Out-Of-Distribution Alignment Failure in LLMs

Cette recherche introduit MOOD, un benchmark conçu pour étudier la détection des échecs d'alignement hors distribution (OOD) dans les grands modèles de langage (LLMs) à l'aide de pipelines de surveillance. Elle propose de combiner des modèles de garde avec des détecteurs OOD pour améliorer la généralisation des classificateurs de sécurité, qui échouent souvent dans les scénarios OOD.

27
RESEARCHarXiv CS.AI·11/05/2026

GraphDC: A Divide-and-Conquer Multi-Agent System for Scalable Graph Algorithm Reasoning

Cet article présente GraphDC, un système multi-agent de type « Diviser pour régner » conçu pour améliorer le raisonnement des algorithmes de graphe dans les grands modèles linguistiques (LLM). Il améliore les performances en décomposant les grands graphes en sous-graphes plus petits pour des agents spécialisés, avec un agent maître intégrant les résultats, ce qui conduit à une meilleure évolutivité et robustesse.

27
RESEARCHarXiv CS.LG·il y a 18j

Predicting Performance of Symbolic and Prompt Programs with Examples

Cet article de recherche propose un modèle de "pile ou face" pour prédire la performance des programmes symboliques et de prompt des LLM, en utilisant quelques exemples et une priorité de performance. Il constate que les programmes symboliques affichent une priorité de performance "tout ou rien", tandis que les programmes de prompt ont une priorité diffuse.

27
RESEARCHarXiv CS.AI·il y a 29j

Belief or Circuitry? Causal Evidence for In-Context Graph Learning

Cet article examine comment les LLM apprennent en contexte, en utilisant une tâche de marche aléatoire sur graphe pour déterminer s'ils correspondent à des modèles ou infèrent une structure latente. Il révèle qu'aucune explication n'est suffisante à elle seule, présentant des preuves d'encodage simultané des topologies de graphes et d'interventions causales.

27
RESEARCHarXiv CS.AI·il y a 21j

AgentNLQ: A General-Purpose Agent for Natural Language to SQL

Cette étude présente AgentNLQ, une nouvelle méthode multi-agents pour la conversion du langage naturel en SQL (NL2SQL), atteignant 78,1% de précision sémantique sur le benchmark BIRD. Elle exploite des LLM dans un orchestrateur optimisé pour la planification, la réflexion et l'autocorrection afin de générer des requêtes SQL précises à partir de schémas enrichis et de règles métier.

27
RESEARCHarXiv CS.AI·il y a 23j

Does Theory of Mind Improvement Really Benefit Human-AI Interactions? Empirical Findings from Interactive Evaluations

Cet article propose un nouveau paradigme pour l'évaluation interactive des améliorations de la Théorie de l'Esprit (ToM) chez les grands modèles linguistiques (LLM) pour les interactions homme-IA. Des résultats empiriques, issus de jeux de données réels et d'une étude utilisateur, révèlent que les améliorations sur des benchmarks statiques ne se traduisent pas toujours par des bénéfices dans les interactions dynamiques homme-IA.

27
RESEARCHarXiv CS.CL·il y a 26j

When Evidence Conflicts: Uncertainty and Order Effects in Retrieval-Augmented Biomedical Question Answering

Cette recherche évalue les grands modèles de langage (LLMs) dans la réponse aux questions biomédicales, en abordant leur fiabilité face à des preuves conflictuelles ou incomplètes. Elle révèle que la précision des LLMs diminue significativement et que les prédictions s'inversent lorsque l'ordre des documents corrects et contradictoires est inversé, soulignant les problèmes d'effets d'ordre et la nécessité d'une abstention consciente des conflits.

27
RESEARCHarXiv CS.CL·11/05/2026

Domain-level metacognitive monitoring in frontier LLMs: A 33-model atlas

Cette étude présente un atlas de la surveillance métacognitive au niveau du domaine chez 33 LLM de pointe, analysant 1 500 éléments MMLU dans six domaines. Elle révèle une variation significative au sein du modèle, les connaissances appliquées/professionnelles étant le domaine le plus facile et le raisonnement formel/sciences naturelles les plus difficiles à surveiller.

27
RESEARCHarXiv CS.AI·il y a 23j

CAX-Agent: A Lightweight Agent Harness for Reliable APDL Automation

Cet article présente CAX-Agent, un harnais d'agent léger conçu pour améliorer la fiabilité des grands modèles de langage (LLM) dans les simulations par éléments finis MAPDL. Il aborde les problèmes de résultats incohérents et d'échecs de tâches grâce à un contrôle d'exécution structuré, l'encapsulation d'outils et des mécanismes robustes de récupération de pannes, évaluant diverses stratégies de récupération.

27
RESEARCHarXiv CS.CL·il y a 21j

Position: Uncertainty Quantification in LLMs is Just Unsupervised Clustering

Cet article affirme que les méthodes actuelles de Quantification de l'Incertitude (UQ) pour les LLM sont en fait des algorithmes de clustering non supervisé, mesurant la cohérence interne des générations du modèle plutôt que leur exactitude externe. Par conséquent, ces méthodes ne parviennent pas à détecter les "hallucinations confiantes" et peuvent créer un faux sentiment de sécurité lors du déploiement de LLM dans des domaines à enjeux élevés.

27
RESEARCHarXiv CS.CL·il y a 27j

Mitigating Cross-Lingual Cultural Inconsistencies in LLMs via Consensus-Driven Preference Optimisation

Les grands modèles de langage multilingues (MLLM) présentent souvent un comportement culturellement incohérent lorsque la langue de l'invite change. Pour y remédier, les chercheurs proposent une nouvelle métrique et un cadre d'alignement basé sur le consensus, C-3PO, qui améliore significativement la cohérence culturelle interlinguistique.

27
RESEARCHarXiv CS.CL·il y a 27j

ToolWeave: Structured Synthesis of Complex Multi-Turn Tool-Calling Dialogues

ToolWeave est un cadre structuré pour la synthèse de dialogues réalistes d'appel d'outils multi-tours, essentiel pour que les LLM fonctionnent comme des agents autonomes. Il résout les problèmes de génération de données synthétiques existants en prenant en charge les flux de travail multi-étapes et en réduisant les hallucinations de paramètres.

27