← heapsort-ai

LLM Agents

35 items

RESEARCHarXiv CS.CL·20/04/2026

PolicyBank: Evolving Policy Understanding for LLM Agents

PolicyBank propose un nouveau mécanisme de mémoire permettant aux agents LLM d'affiner itérativement leur compréhension des politiques organisationnelles, en abordant les ambiguïtés et les lacunes par le biais de la rétroaction. Contrairement aux systèmes existants, il permet aux agents de faire évoluer leur interprétation au lieu de traiter les politiques comme une vérité immuable, introduisant également un banc d'essai systématique pour les échecs d'alignement.

35
ARTICLEDEV.to AI·19/04/2026

How to Safely Execute LLM Commands in Production Systems

Cet article aborde les risques critiques des agents LLM qui déclenchent des actions de backend dans les systèmes de production, soulignant que traiter la sortie brute du modèle comme des instructions exécutables est dangereux. Il présente le défi comme un problème d'interface, plaidant pour des limites déterministes afin de valider, rejeter et auditer les commandes générées par les LLM pour la sécurité.

33
ARTICLEDEV.to AI·15/04/2026

OpenAI's Promptfoo deal puts evaluation and red-teaming at the centre of the agent stack

L'acquisition de Promptfoo par OpenAI marque un virage dans l'évaluation de la qualité des agents IA, désormais jugée par la capacité à tester et maîtriser les défaillances avant le déploiement. Cela permet de gérer les risques opérationnels critiques tels que l'injection de prompt et l'utilisation abusive d'outils, garantissant la robustesse des systèmes en production.

30
RESEARCHarXiv CS.AI·il y a 27j

OLIVIA: Online Learning via Inference-time Action Adaptation for Decision Making in LLM ReAct Agents

OLIVIA est un nouveau framework d'adaptation d'actions en temps d'inférence conçu pour les agents LLM de type ReAct, visant à améliorer la prise de décision dans les tâches séquentielles. Il offre une couche de décision explicite pour évaluer les actions candidates et une adaptation en ligne, comblant les lacunes des méthodes actuelles de manipulation indirecte du contexte.

29
ARTICLEDEV.to AI·il y a 18j

AI-Enabled Cyber Attacks Hit 600+ Firewalls: The 9 Autonomous Breaches That Redefined Security in 2026

Au premier trimestre 2026, des agents autonomes basés sur des LLM ont mené neuf campagnes d'intrusion coordonnées, franchissant plus de 600 pare-feu d'entreprise à la vitesse de la machine. Ces systèmes avancés ont découvert des vulnérabilités zero-day et exploité des backplanes MLOps, transformant l'IA quotidienne en une menace de sécurité majeure.

28
RESEARCHarXiv CS.AI·04/05/2026

Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents

Cette recherche remet en question l'idée que le raisonnement assisté par des outils améliore toujours les performances des LLM, révélant une "taxe d'utilisation d'outils" due au protocole d'appel qui peut dégrader la performance. Un cadre d'intervention factorisé est proposé pour analyser cet écart, et G-STEP est introduit pour atténuer les erreurs induites par le protocole.

28
RESEARCHarXiv CS.AI·23/04/2026

From Actions to Understanding: Conformal Interpretability of Temporal Concepts in LLM Agents

Cet article présente un cadre d'interprétabilité conforme pour les agents LLM, visant à comprendre l'évolution temporelle des concepts. Il utilise la modélisation des récompenses par étapes et la prédiction conforme pour étiqueter les représentations internes et identifier les directions latentes de succès, d'échec ou de dérive du raisonnement.

28
ARTICLEDEV.to AI·25/04/2026

Why LLM Agents Fail: Four Mechanisms of Cognitive Decay and the Reasoning Harness Layer

Les agents LLM échouent de quatre manières prévisibles, notamment la dégradation de l'attention et du raisonnement, l'effondrement sycophantique et la dérive hallucinatoire, que les approches actuelles ne peuvent résoudre. La solution proposée est une couche externe appelée "harnais de raisonnement" pour corriger ces échecs inhérents au fonctionnement des transformateurs.

27
RESEARCHDEV.to AI·il y a 29j

AI/ML Research Digest — May 09, 2026

Ce résumé de recherche en IA/ML couvre les avancées des modèles de diffusion latente pour la génération multimodale, se concentrant sur l'efficacité et l'extension des capacités des images à la vidéo. Il met également en évidence les innovations en matière de routage modulaire d'experts pour les réseaux neuronaux et les méthodes de calcul adaptatif pour optimiser les processus de prise de décision séquentielle.

27
RESEARCHarXiv CS.AI·15/04/2026

The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break

Cette recherche s'intéresse à la défaillance des agents LLM dans les tâches à long horizon, qui nécessitent des séquences d'actions étendues et interdépendantes. Elle présente HORIZON, un benchmark de diagnostic inter-domaines pour construire des tâches et analyser les comportements de défaillance, évaluant les agents de pointe et proposant un pipeline "LLM-as-a-Judge" pour une attribution d'échecs évolutive.

27
RESEARCHarXiv CS.AI·13/04/2026

From Business Events to Auditable Decisions: Ontology-Governed Graph Simulation for Enterprise AI

LOM-action propose une simulation d'ontologie événementielle pour l'IA d'entreprise, corrigeant l'échec architectural des agents LLM produisant des décisions non fondées. Il utilise des événements métier pour déclencher des mutations de graphe, évoluant un graphe de simulation à partir duquel toutes les décisions auditables sont exclusivement dérivées.

27
RESEARCHarXiv CS.AI·27/04/2026

Sound Agentic Science Requires Adversarial Experiments

Les agents basés sur les LLM sont rapidement adoptés pour l'analyse de données scientifiques, mais ils risquent de produire des analyses plausibles optimisées pour des résultats positifs et publiables. Ce document propose que les affirmations non expérimentales produites avec l'aide d'agents soient évaluées selon un cadre de falsification pour garantir la rigueur scientifique.

27
RESEARCHarXiv CS.AI·09/05/2026

From History to State: Constant-Context Skill Learning for LLM Agents

Cet article propose l'apprentissage des compétences à contexte constant, un nouveau cadre pour les agents LLM afin de gérer les flux de travail récurrents plus efficacement. Il aborde les défis de confidentialité, de coût et de capacité en apprenant des procédures réutilisables dans des modules de famille de tâches et en conditionnant l'inférence sur un bloc d'état compact. Son efficacité est démontrée sur des benchmarks tels qu'ALFWorld, WebShop et SciWorld.

27