LLM Agents

35 items

RESEARCHarXiv CS.CL·20/04/2026

PolicyBank: Evolving Policy Understanding for LLM Agents

PolicyBank propose un nouveau mécanisme de mémoire permettant aux agents LLM d'affiner itérativement leur compréhension des politiques organisationnelles, en abordant les ambiguïtés et les lacunes par le biais de la rétroaction. Contrairement aux systèmes existants, il permet aux agents de faire évoluer leur interprétation au lieu de traiter les politiques comme une vérité immuable, introduisant également un banc d'essai systématique pour les échecs d'alignement.

LLM Agents machine learning human-AI interaction policy compliance

ARTICLEDEV.to AI·19/04/2026

How to Safely Execute LLM Commands in Production Systems

Cet article aborde les risques critiques des agents LLM qui déclenchent des actions de backend dans les systèmes de production, soulignant que traiter la sortie brute du modèle comme des instructions exécutables est dangereux. Il présente le défi comme un problème d'interface, plaidant pour des limites déterministes afin de valider, rejeter et auditer les commandes générées par les LLM pour la sécurité.

LLM Agents production systems AI safety AI security

ARTICLEAnalytics Vidhya·il y a 6j

Agent Observability with LangSmith, Langfuse, and Arize: A Hands-On Comparison

Cet article aborde le problème critique de l'observabilité des agents dans l'IA et les LLM, où des problèmes tels que des boucles infinies ou une récupération médiocre peuvent survenir après le déploiement. Il présente et compare des outils comme LangSmith, Langfuse et Arize, conçus pour relever ces défis.

LLM Agents AI Observability Arize Langfuse

ARTICLEDEV.to AI·15/04/2026

OpenAI's Promptfoo deal puts evaluation and red-teaming at the centre of the agent stack

L'acquisition de Promptfoo par OpenAI marque un virage dans l'évaluation de la qualité des agents IA, désormais jugée par la capacité à tester et maîtriser les défaillances avant le déploiement. Cela permet de gérer les risques opérationnels critiques tels que l'injection de prompt et l'utilisation abusive d'outils, garantissant la robustesse des systèmes en production.

red-teaming LLM Agents evaluation prompt injection

RESEARCHarXiv CS.AI·il y a 27j

OLIVIA: Online Learning via Inference-time Action Adaptation for Decision Making in LLM ReAct Agents

OLIVIA est un nouveau framework d'adaptation d'actions en temps d'inférence conçu pour les agents LLM de type ReAct, visant à améliorer la prise de décision dans les tâches séquentielles. Il offre une couche de décision explicite pour évaluer les actions candidates et une adaptation en ligne, comblant les lacunes des méthodes actuelles de manipulation indirecte du contexte.

AI models Decision Making LLM Agents ReAct

ARTICLEDEV.to AI·il y a 18j

AI-Enabled Cyber Attacks Hit 600+ Firewalls: The 9 Autonomous Breaches That Redefined Security in 2026

Au premier trimestre 2026, des agents autonomes basés sur des LLM ont mené neuf campagnes d'intrusion coordonnées, franchissant plus de 600 pare-feu d'entreprise à la vitesse de la machine. Ces systèmes avancés ont découvert des vulnérabilités zero-day et exploité des backplanes MLOps, transformant l'IA quotidienne en une menace de sécurité majeure.

firewall breaches LLM Agents cybersecurity security

ARTICLEDEV.to AI·10/05/2026

Biological AI: Building a Tool-Calling Cellular Simulation

Ce contenu explore la création d'une simulation cellulaire en temps réel inspirée par l'intelligence décentralisée de la biologie, en utilisant des modèles d'agents LLM modernes. Il détaille l'architecture du système, y compris un orchestrateur d'IA, un moteur de simulation et un bus d'événements.

AI orchestration LLM Agents biological-ai learning

RESEARCHarXiv CS.AI·04/05/2026

Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents

Cette recherche remet en question l'idée que le raisonnement assisté par des outils améliore toujours les performances des LLM, révélant une "taxe d'utilisation d'outils" due au protocole d'appel qui peut dégrader la performance. Un cadre d'intervention factorisé est proposé pour analyser cet écart, et G-STEP est introduit pour atténuer les erreurs induites par le protocole.

LLM Agents Reasoning AI performance tool use

RESEARCHarXiv CS.AI·23/04/2026

From Actions to Understanding: Conformal Interpretability of Temporal Concepts in LLM Agents

Cet article présente un cadre d'interprétabilité conforme pour les agents LLM, visant à comprendre l'évolution temporelle des concepts. Il utilise la modélisation des récompenses par étapes et la prédiction conforme pour étiqueter les représentations internes et identifier les directions latentes de succès, d'échec ou de dérive du raisonnement.

LLM Agents AI interpretability Conformal Prediction

RESEARCHarXiv CS.AI·il y a 27j

PIVOT: Bridging Planning and Execution in LLM Agents via Trajectory Refinement

PIVOT (Plan-Inspect-eVOlve Trajectories) s'attaque au désalignement plan-exécution chez les agents LLM via un cadre auto-supervisé. Il affine itérativement les trajectoires par l'interaction avec l'environnement, démontrant des performances de pointe lors d'évaluations empiriques.

LLM Agents self-supervised learning Trajectory optimization machine learning

ARTICLEDEV.to AI·25/04/2026

Why LLM Agents Fail: Four Mechanisms of Cognitive Decay and the Reasoning Harness Layer

Les agents LLM échouent de quatre manières prévisibles, notamment la dégradation de l'attention et du raisonnement, l'effondrement sycophantique et la dérive hallucinatoire, que les approches actuelles ne peuvent résoudre. La solution proposée est une couche externe appelée "harnais de raisonnement" pour corriger ces échecs inhérents au fonctionnement des transformateurs.

AI architecture LLM Agents AI failure modes

ARTICLEDEV.to AI·il y a 7j

Bot-to-Bot Routing in 2026: Stop Parsing @-mentions From Message Text

Cet article aborde le défi du routage de messages entre bots dans les plateformes multi-agents, critiquant la pratique d'analyse des mentions (@-mentions) du texte à cette fin. Il propose une alternative d'« enveloppe structurée », tirée de l'expérience avec des agents LLM.

LLM Agents Software Architecture bot communication multi-agent systems

ARTICLEDEV.to AI·il y a 26j

Why Your LLM Agent Needs Contracts, Not Just Logs

L'article discute de l'inefficacité des assertions pour déboguer les échecs des agents LLM et propose d'utiliser des "contrats" pour prévenir les erreurs de manière proactive. Cette approche vise à définir des conditions explicites, rendant le développement d'agents IA plus robuste et détectant les problèmes avant l'exécution.

LLM Agents agent robustness software contracts Debugging

ARTICLEDEV.to AI·il y a 28j

CrewAI vs LangGraph in 2026: Choosing the Right LLM Agent Framework

Cet article compare CrewAI et LangGraph, deux frameworks populaires pour agents LLM, en soulignant leurs approches distinctes. CrewAI se concentre sur les agents collaboratifs basés sur des rôles, tandis que LangGraph met l'accent sur les transitions d'état explicites et l'orchestration de niveau production.

AI orchestration CrewAI LangGraph LLM Agents

RESEARCHDEV.to AI·il y a 29j

AI/ML Research Digest — May 09, 2026

Ce résumé de recherche en IA/ML couvre les avancées des modèles de diffusion latente pour la génération multimodale, se concentrant sur l'efficacité et l'extension des capacités des images à la vidéo. Il met également en évidence les innovations en matière de routage modulaire d'experts pour les réseaux neuronaux et les méthodes de calcul adaptatif pour optimiser les processus de prise de décision séquentielle.

Diffusion Models multimodal AI LLM Agents machine learning

ARTICLEDEV.to AI·il y a 29j

Heym just crossed 200 GitHub stars: self-hosted AI workflow automation with agents, RAG, MCP, and observability

La plateforme d'automatisation des flux de travail d'IA auto-hébergée Heym a franchi les 200 étoiles sur GitHub. Elle offre un canevas visuel pour construire des flux de travail d'IA de production avec des nœuds LLM, des agents, le RAG et l'observabilité.

self-hosted AI LLM Agents workflow automation AI automation

RESEARCHarXiv CS.AI·15/04/2026

The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break

Cette recherche s'intéresse à la défaillance des agents LLM dans les tâches à long horizon, qui nécessitent des séquences d'actions étendues et interdépendantes. Elle présente HORIZON, un benchmark de diagnostic inter-domaines pour construire des tâches et analyser les comportements de défaillance, évaluant les agents de pointe et proposant un pipeline "LLM-as-a-Judge" pour une attribution d'échecs évolutive.

Agentic Systems Long-horizon tasks LLM Agents failure diagnosis

RESEARCHarXiv CS.AI·13/04/2026

From Business Events to Auditable Decisions: Ontology-Governed Graph Simulation for Enterprise AI

LOM-action propose une simulation d'ontologie événementielle pour l'IA d'entreprise, corrigeant l'échec architectural des agents LLM produisant des décisions non fondées. Il utilise des événements métier pour déclencher des mutations de graphe, évoluant un graphe de simulation à partir duquel toutes les décisions auditables sont exclusivement dérivées.

Auditable Decisions LLM Agents Enterprise AI Graph Simulation

RESEARCHarXiv CS.AI·27/04/2026

Sound Agentic Science Requires Adversarial Experiments

Les agents basés sur les LLM sont rapidement adoptés pour l'analyse de données scientifiques, mais ils risquent de produire des analyses plausibles optimisées pour des résultats positifs et publiables. Ce document propose que les affirmations non expérimentales produites avec l'aide d'agents soient évaluées selon un cadre de falsification pour garantir la rigueur scientifique.

falsification LLM Agents scientific methodology AI in science

RESEARCHarXiv CS.AI·09/05/2026

From History to State: Constant-Context Skill Learning for LLM Agents

Cet article propose l'apprentissage des compétences à contexte constant, un nouveau cadre pour les agents LLM afin de gérer les flux de travail récurrents plus efficacement. Il aborde les défis de confidentialité, de coût et de capacité en apprenant des procédures réutilisables dans des modules de famille de tâches et en conditionnant l'inférence sur un bloc d'état compact. Son efficacité est démontrée sur des benchmarks tels qu'ALFWorld, WebShop et SciWorld.

LLM Agents reinforcement learning Skill Learning AI Research