LLM Agents

35 items

RESEARCHarXiv CS.AI·27/04/2026

Read the Paper, Write the Code: Agentic Reproduction of Social-Science Results

Ce travail développe un système de reproduction agentique utilisant des LLM pour répliquer des résultats de recherche en sciences sociales, en se basant uniquement sur la description des méthodes d'un article et les données originales. En évaluant différents agents et LLM sur 48 articles, il constate que les résultats publiés peuvent être largement retrouvés, mais avec des performances variables et des erreurs attribuables aux agents.

scientific methods social science research LLM Agents Reproducibility

RESEARCHarXiv CS.AI·20/04/2026

The World Leaks the Future: Harness Evolution for Future Prediction Agents

Cette recherche s'attaque au défi de la prédiction future à l'aide d'agents LLM, où les preuves évoluent et la supervision utile n'arrive qu'après la résolution d'un événement. Elle introduit le "feedback interne" issu de la réévaluation des prédictions dans le temps et propose "Milkyway", un système d'agent auto-évolutif qui met à jour un état persistant pour améliorer la précision de la prédiction.

LLM Agents future prediction self-evolving agents Agent systems

RESEARCHarXiv CS.LG·il y a 25j

EvolveMem:Self-Evolving Memory Architecture via AutoResearch for LLM Agents

EvolveMem présente une architecture de mémoire auto-évolutive pour les agents LLM, permettant la co-évolution des connaissances stockées et des mécanismes de récupération. Elle optimise sa configuration de manière autonome via un module de diagnostic basé sur les LLM, aboutissant à un processus d'AutoResearch en boucle fermée.

LLM Agents AutoResearch self-evolving systems memory architecture

RESEARCHarXiv CS.AI·il y a 28j

SkillLens: Adaptive Multi-Granularity Skill Reuse for Cost-Efficient LLM Agents

SkillLens est un cadre hiérarchique d'évolution des compétences pour les agents LLM qui organise et réutilise les compétences à granularité mixte. Cela permet aux agents de réutiliser directement les sous-compétences compatibles tout en adaptant uniquement les parties localement incompatibles, optimisant les coûts et la pertinence.

Skill reuse LLM Agents AI frameworks Natural Language Processing

RESEARCHarXiv CS.AI·il y a 29j

From Storage to Experience: A Survey on the Evolution of LLM Agent Memory Mechanisms

Les agents basés sur les grands modèles de langage (LLM) ont transformé l'intelligence artificielle, mais la recherche sur les mécanismes de mémoire reste fragmentée. Cette étude propose un nouveau cadre évolutif pour les mécanismes de mémoire des agents LLM, formalisant le processus de développement en trois étapes : Stockage, Réflexion et Expérience.

Evolutionary framework LLM Agents research Memory mechanisms

RESEARCHarXiv CS.AI·il y a 20j

Trustworthy Agent Network: Trust in Agent Networks Must Be Baked In, Not Bolted On

L'émergence de réseaux d'agents (A2A) basés sur des LLM autonomes introduit des vulnérabilités systémiques malgré des performances améliorées. Cet article soutient que la fiabilité des réseaux A2A doit être intégrée dès la conception plutôt que d'être ajoutée après coup, afin d'atténuer les risques tels que la composition contradictoire et les défaillances en cascade.

LLM Agents trustworthiness security agent networks

RESEARCHarXiv CS.AI·il y a 8j

Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents

Cet article démêle deux capacités d'agents LLM auto-évolutifs : la mise à jour du "harness" (produire des mises à jour utiles) et le bénéfice du "harness" (profiter de ces mises à jour). L'analyse révèle que la capacité de mise à jour est étonnamment constante entre les modèles de différentes capacités de base, impliquant que même les modèles moins performants peuvent générer des mises à jour utiles.

AI capabilities LLM Agents machine learning self-evolution

ARTICLEDEV.to AI·16/04/2026

Ai Financial Agents Hallucinating With Real Money How To Build Brokerage Grade Guardrails

Les agents LLM autonomes dans la finance posent des risques importants, car les hallucinations peuvent entraîner des pertes monétaires réelles et un examen réglementaire. Les couches d'orchestration de l'IA doivent être traitées comme des infrastructures de niveau 1 avec des garde-fous de qualité courtage, en les intégrant dès le premier jour dans l'environnement de contrôle.

LLM Agents Financial services risk management AI safety

RESEARCHarXiv CS.AI·06/04/2026

Aligning Progress and Feasibility: A Neuro-Symbolic Dual Memory Framework for Long-Horizon LLM Agents

O título sugere uma pesquisa sobre um framework neuro-simbólico de memória dupla para agentes LLM, visando alinhar progresso e viabilidade em tarefas de longo horizonte. Ele aborda a melhoria da capacidade de agentes de IA para planejar e executar ações complexas ao longo do tempo.

memory architectures LLMs LLM Agents Neuro-Simbólico

RESEARCHarXiv CS.AI·06/04/2026

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems

Este título descreve uma pesquisa focada na verificação e validação de sistemas autônomos confiáveis, utilizando uma abordagem neuro-simbólica integrada a agentes LLM. O objetivo é garantir a robustez e a segurança de sistemas de IA avançados.

LLM Agents Autonomous systems Verification and Validation trustworthy AI

RESEARCHarXiv CS.AI·il y a 21j

ANNEAL: Adapting LLM Agents via Governed Symbolic Patch Learning

ANNEAL est un agent neuro-symbolique qui répare les échecs récurrents des agents LLM via des modifications symboliques gouvernées d'un graphe de connaissances de processus. Il localise l'opérateur responsable, synthétise un correctif typé et le valide avec des garde-fous symboliques et des tests canaris avant de valider le changement.

LLM Agents Knowledge Graphs error recovery AI Governance

ARTICLEDEV.to AI·14/04/2026

Qwen Models for Hermes Agent — Open-Source Agent Workflows

La licence Apache 2.0 de Qwen3 permet des flux de travail flexibles pour Hermes Agent, supportant le réglage fin, le déploiement privé et l'utilisation commerciale sans restrictions. La gamme complète de Qwen3, exécutable localement via Ollama, facilite divers cas d'utilisation d'agents sur du matériel varié et à coût d'API nul.

Apache 2.0 LLM Agents Hermes Agent open-source AI

NEWSDEV.to AI·12/04/2026

LLM Agent Workflows: Local AI Support, Prompt Tooling, & Claude Code API Costs

Ce contenu explore les avancées pratiques dans les applications LLM, se concentrant sur les agents d'IA locaux pour le support client, les outils d'ingénierie de prompts et les coûts de l'API Claude Code. Il articule la vision d'agents de support client basés sur les LLM, entièrement hors ligne et privés, pour des plateformes comme WhatsApp et Telegram, avec un accent sur la confidentialité des données.

prompt-engineering LLM Agents data privacy Local AI

ARTICLEDEV.to AI·02/05/2026

Stuck in the Birch Log Blues 🪵😩

Ce contenu décrit une expérience frustrante où un agent IA, Kiwi-chan, est resté bloqué dans une boucle d'échec en essayant de ramasser des bûches de bouleau, malgré les tentatives de réparation de code par un LLM, Qwen. Le problème souligne la difficulté de l'IA à s'auto-corriger et à reconnaître la nécessité d'explorer plutôt que de se concentrer uniquement sur des corrections immédiates.

LLM Agents AI debugging AI failure

RESEARCHarXiv CS.AI·06/04/2026

Let's Have a Conversation: Designing and Evaluating LLM Agents for Interactive Optimization

Este conteúdo aborda a concepção e avaliação de agentes LLM para otimização interativa. Ele explora métodos para criar e medir a eficácia de sistemas de IA conversacionais.

Interactive Optimization LLM Agents evaluation AI design