LLMs

722 items

RESEARCHarXiv CS.LG·07/05/2026

EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation

Cette recherche présente EdgeRazor, un cadre léger conçu pour déployer les grands modèles de langage sur des appareils à ressources limitées. Il utilise une distillation de quantification consciente à précision mixte pour convertir les modèles à pleine précision en formats à bits inférieurs, surmontant les limitations des méthodes de quantification précédentes.

LLMs deep learning quantization model optimization

RESEARCHarXiv CS.AI·il y a 29j

MemQ: Integrating Q-Learning into Self-Evolving Memory Agents over Provenance DAGs

MemQ intègre les traces d'éligibilité TD($\lambda$) aux valeurs Q de la mémoire, propageant le crédit via un DAG de provenance pour tenir compte des dépendances entre les mémoires. Cette approche améliore considérablement la capacité des agents LLM à accumuler et récupérer de l'expérience, atteignant des taux de réussite élevés sur divers benchmarks.

memory systems LLMs machine learning Q-learning

RESEARCHarXiv CS.AI·il y a 18j

SMDD-Bench: Can LLMs Solve Real-World Small Molecule Drug Design Tasks?

L'article présente SMDD-Bench, un nouveau benchmark multi-tours avec 502 tâches résolvables pour évaluer la performance des agents LLM dans la conception de médicaments à petites molécules. Il vise à standardiser l'évaluation à travers diverses chimies et cibles, nécessitant une forte intuition chimique, biologique et 3D.

LLMs Scientific Discovery benchmarks drug design

RESEARCHarXiv CS.AI·il y a 29j

On Distinguishing Capability Elicitation from Capability Creation in Post-Training: A Free-Energy Perspective

Cette recherche propose de distinguer l'élicitation de capacités de la création de capacités dans le post-entraînement des grands modèles linguistiques. Elle soutient que l'élicitation repondère les comportements existants au sein du support accessible d'un modèle, tandis que la création modifie ce support, développant cette idée à travers une perspective d'énergie libre.

LLMs AI capabilities Machine Learning Theory learning

RESEARCHarXiv CS.LG·il y a 8j

A Shared Valence Axis Across Modern LLMs and Human EEG: The Saturation Regularity

Cette recherche examine si les LLM peuvent servir de prisme pour comprendre les représentations neurales de la valence émotionnelle dans le cerveau humain, en se concentrant sur l'EEG. L'étude construit un axe de valence à partir des LLM et démontre sa correspondance avec l'activité neuronale humaine, suggérant une représentation partagée.

LLMs emotion Neuroscience Cognition

RESEARCHarXiv CS.AI·11/05/2026

CASCADE: Case-Based Continual Adaptation for Large Language Models During Deployment

Cet article formalise l'Apprentissage en Temps de Déploiement (DTL) comme une nouvelle étape pour les LLM, leur permettant de s'adapter continuellement à partir de l'expérience post-entraînement sans modifier les paramètres du modèle. Il introduit CASCADE, un cadre qui dote les agents LLM d'une mémoire épisodique explicite et évolutive, formalisant la réutilisation d'expérience comme un problème de bandit contextuel.

LLMs adaptation machine learning AI deployment

RESEARCHarXiv CS.AI·il y a 18j

Benchmarking and Improving Monitors for Out-Of-Distribution Alignment Failure in LLMs

Cette recherche introduit MOOD, un benchmark conçu pour étudier la détection des échecs d'alignement hors distribution (OOD) dans les grands modèles de langage (LLMs) à l'aide de pipelines de surveillance. Elle propose de combiner des modèles de garde avec des détecteurs OOD pour améliorer la généralisation des classificateurs de sécurité, qui échouent souvent dans les scénarios OOD.

Model Monitoring OOD Detection LLMs benchmarking

RESEARCHarXiv CS.AI·11/05/2026

GraphDC: A Divide-and-Conquer Multi-Agent System for Scalable Graph Algorithm Reasoning

Cet article présente GraphDC, un système multi-agent de type « Diviser pour régner » conçu pour améliorer le raisonnement des algorithmes de graphe dans les grands modèles linguistiques (LLM). Il améliore les performances en décomposant les grands graphes en sous-graphes plus petits pour des agents spécialisés, avec un agent maître intégrant les résultats, ce qui conduit à une meilleure évolutivité et robustesse.

LLMs scalable AI AI Reasoning multi-agent systems

RESEARCHarXiv CS.LG·il y a 18j

Predicting Performance of Symbolic and Prompt Programs with Examples

Cet article de recherche propose un modèle de "pile ou face" pour prédire la performance des programmes symboliques et de prompt des LLM, en utilisant quelques exemples et une priorité de performance. Il constate que les programmes symboliques affichent une priorité de performance "tout ou rien", tandis que les programmes de prompt ont une priorité diffuse.

LLMs prompt-engineering Symbolic AI machine learning

RESEARCHarXiv CS.AI·il y a 29j

Belief or Circuitry? Causal Evidence for In-Context Graph Learning

Cet article examine comment les LLM apprennent en contexte, en utilisant une tâche de marche aléatoire sur graphe pour déterminer s'ils correspondent à des modèles ou infèrent une structure latente. Il révèle qu'aucune explication n'est suffisante à elle seule, présentant des preuves d'encodage simultané des topologies de graphes et d'interventions causales.

LLMs learning interpretability graph learning

RESEARCHarXiv CS.AI·il y a 21j

AgentNLQ: A General-Purpose Agent for Natural Language to SQL

Cette étude présente AgentNLQ, une nouvelle méthode multi-agents pour la conversion du langage naturel en SQL (NL2SQL), atteignant 78,1% de précision sémantique sur le benchmark BIRD. Elle exploite des LLM dans un orchestrateur optimisé pour la planification, la réflexion et l'autocorrection afin de générer des requêtes SQL précises à partir de schémas enrichis et de règles métier.

LLMs benchmarking NL2SQL database

RESEARCHarXiv CS.AI·il y a 23j

Does Theory of Mind Improvement Really Benefit Human-AI Interactions? Empirical Findings from Interactive Evaluations

Cet article propose un nouveau paradigme pour l'évaluation interactive des améliorations de la Théorie de l'Esprit (ToM) chez les grands modèles linguistiques (LLM) pour les interactions homme-IA. Des résultats empiriques, issus de jeux de données réels et d'une étude utilisateur, révèlent que les améliorations sur des benchmarks statiques ne se traduisent pas toujours par des bénéfices dans les interactions dynamiques homme-IA.

LLMs evaluation human-AI interaction empirical study

RESEARCHarXiv CS.CL·il y a 26j

When Evidence Conflicts: Uncertainty and Order Effects in Retrieval-Augmented Biomedical Question Answering

Cette recherche évalue les grands modèles de langage (LLMs) dans la réponse aux questions biomédicales, en abordant leur fiabilité face à des preuves conflictuelles ou incomplètes. Elle révèle que la précision des LLMs diminue significativement et que les prédictions s'inversent lorsque l'ordre des documents corrects et contradictoires est inversé, soulignant les problèmes d'effets d'ordre et la nécessité d'une abstention consciente des conflits.

LLMs evaluation Reliability Biomedical AI

RESEARCHarXiv CS.CL·11/05/2026

Domain-level metacognitive monitoring in frontier LLMs: A 33-model atlas

Cette étude présente un atlas de la surveillance métacognitive au niveau du domaine chez 33 LLM de pointe, analysant 1 500 éléments MMLU dans six domaines. Elle révèle une variation significative au sein du modèle, les connaissances appliquées/professionnelles étant le domaine le plus facile et le raisonnement formel/sciences naturelles les plus difficiles à surveiller.

LLMs Metacognition cognitive AI benchmarks

RESEARCHarXiv CS.AI·il y a 23j

CAX-Agent: A Lightweight Agent Harness for Reliable APDL Automation

Cet article présente CAX-Agent, un harnais d'agent léger conçu pour améliorer la fiabilité des grands modèles de langage (LLM) dans les simulations par éléments finis MAPDL. Il aborde les problèmes de résultats incohérents et d'échecs de tâches grâce à un contrôle d'exécution structuré, l'encapsulation d'outils et des mécanismes robustes de récupération de pannes, évaluant diverses stratégies de récupération.

LLMs simulation automation fault tolerance

RESEARCHarXiv CS.CL·il y a 21j

Position: Uncertainty Quantification in LLMs is Just Unsupervised Clustering

Cet article affirme que les méthodes actuelles de Quantification de l'Incertitude (UQ) pour les LLM sont en fait des algorithmes de clustering non supervisé, mesurant la cohérence interne des générations du modèle plutôt que leur exactitude externe. Par conséquent, ces méthodes ne parviennent pas à détecter les "hallucinations confiantes" et peuvent créer un faux sentiment de sécurité lors du déploiement de LLM dans des domaines à enjeux élevés.

LLMs uncertainty quantification hallucinations AI safety

RESEARCHarXiv CS.LG·il y a 8j

On Effectiveness and Efficiency of Agentic Tool-calling and RL Training

Cet article étudie l'appel d'outils chez les agents de grands modèles de langage (LLM), en se penchant sur leur efficacité et leur efficience. Il révèle que les pipelines d'évaluation sont sensibles aux choix d'implémentation et identifie un gaspillage computationnel dans l'apprentissage par renforcement.

LLMs evaluation reinforcement learning tool-calling

RESEARCHarXiv CS.CL·il y a 27j

Mitigating Cross-Lingual Cultural Inconsistencies in LLMs via Consensus-Driven Preference Optimisation

Les grands modèles de langage multilingues (MLLM) présentent souvent un comportement culturellement incohérent lorsque la langue de l'invite change. Pour y remédier, les chercheurs proposent une nouvelle métrique et un cadre d'alignement basé sur le consensus, C-3PO, qui améliore significativement la cohérence culturelle interlinguistique.

Multilingual AI LLMs AI alignment Cultural Bias

RESEARCHarXiv CS.CL·il y a 27j

ToolWeave: Structured Synthesis of Complex Multi-Turn Tool-Calling Dialogues

ToolWeave est un cadre structuré pour la synthèse de dialogues réalistes d'appel d'outils multi-tours, essentiel pour que les LLM fonctionnent comme des agents autonomes. Il résout les problèmes de génération de données synthétiques existants en prenant en charge les flux de travail multi-étapes et en réduisant les hallucinations de paramètres.

data synthesis LLMs tool-calling dialogue systems

CASEDEV.to AI·28/04/2026

I Built a 24/7 AI Agent System on a $6/Month VPS — Here's the Stack

Ce contenu détaille la création d'un système d'agent IA autonome 24/7 sur un VPS à 6 $/mois, utilisant OpenClaw, DeepSeek V4 Pro et Playwright pour l'automatisation. Le système gère les publications sur les réseaux sociaux, les articles Dev.to et une boutique Gumroad, démontrant une automatisation IA rentable et efficace.

LLMs DevOps Cost Optimization automation