← heapsort-ai

LLM Agents

35 items

RESEARCHarXiv CS.AI·27/04/2026

Read the Paper, Write the Code: Agentic Reproduction of Social-Science Results

Ce travail développe un système de reproduction agentique utilisant des LLM pour répliquer des résultats de recherche en sciences sociales, en se basant uniquement sur la description des méthodes d'un article et les données originales. En évaluant différents agents et LLM sur 48 articles, il constate que les résultats publiés peuvent être largement retrouvés, mais avec des performances variables et des erreurs attribuables aux agents.

27
RESEARCHarXiv CS.AI·20/04/2026

The World Leaks the Future: Harness Evolution for Future Prediction Agents

Cette recherche s'attaque au défi de la prédiction future à l'aide d'agents LLM, où les preuves évoluent et la supervision utile n'arrive qu'après la résolution d'un événement. Elle introduit le "feedback interne" issu de la réévaluation des prédictions dans le temps et propose "Milkyway", un système d'agent auto-évolutif qui met à jour un état persistant pour améliorer la précision de la prédiction.

27
RESEARCHarXiv CS.LG·il y a 25j

EvolveMem:Self-Evolving Memory Architecture via AutoResearch for LLM Agents

EvolveMem présente une architecture de mémoire auto-évolutive pour les agents LLM, permettant la co-évolution des connaissances stockées et des mécanismes de récupération. Elle optimise sa configuration de manière autonome via un module de diagnostic basé sur les LLM, aboutissant à un processus d'AutoResearch en boucle fermée.

27
RESEARCHarXiv CS.AI·il y a 28j

SkillLens: Adaptive Multi-Granularity Skill Reuse for Cost-Efficient LLM Agents

SkillLens est un cadre hiérarchique d'évolution des compétences pour les agents LLM qui organise et réutilise les compétences à granularité mixte. Cela permet aux agents de réutiliser directement les sous-compétences compatibles tout en adaptant uniquement les parties localement incompatibles, optimisant les coûts et la pertinence.

27
RESEARCHarXiv CS.AI·il y a 29j

From Storage to Experience: A Survey on the Evolution of LLM Agent Memory Mechanisms

Les agents basés sur les grands modèles de langage (LLM) ont transformé l'intelligence artificielle, mais la recherche sur les mécanismes de mémoire reste fragmentée. Cette étude propose un nouveau cadre évolutif pour les mécanismes de mémoire des agents LLM, formalisant le processus de développement en trois étapes : Stockage, Réflexion et Expérience.

27
RESEARCHarXiv CS.AI·il y a 20j

Trustworthy Agent Network: Trust in Agent Networks Must Be Baked In, Not Bolted On

L'émergence de réseaux d'agents (A2A) basés sur des LLM autonomes introduit des vulnérabilités systémiques malgré des performances améliorées. Cet article soutient que la fiabilité des réseaux A2A doit être intégrée dès la conception plutôt que d'être ajoutée après coup, afin d'atténuer les risques tels que la composition contradictoire et les défaillances en cascade.

27
RESEARCHarXiv CS.AI·il y a 8j

Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents

Cet article démêle deux capacités d'agents LLM auto-évolutifs : la mise à jour du "harness" (produire des mises à jour utiles) et le bénéfice du "harness" (profiter de ces mises à jour). L'analyse révèle que la capacité de mise à jour est étonnamment constante entre les modèles de différentes capacités de base, impliquant que même les modèles moins performants peuvent générer des mises à jour utiles.

27
ARTICLEDEV.to AI·16/04/2026

Ai Financial Agents Hallucinating With Real Money How To Build Brokerage Grade Guardrails

Les agents LLM autonomes dans la finance posent des risques importants, car les hallucinations peuvent entraîner des pertes monétaires réelles et un examen réglementaire. Les couches d'orchestration de l'IA doivent être traitées comme des infrastructures de niveau 1 avec des garde-fous de qualité courtage, en les intégrant dès le premier jour dans l'environnement de contrôle.

27
NEWSDEV.to AI·12/04/2026

LLM Agent Workflows: Local AI Support, Prompt Tooling, & Claude Code API Costs

Ce contenu explore les avancées pratiques dans les applications LLM, se concentrant sur les agents d'IA locaux pour le support client, les outils d'ingénierie de prompts et les coûts de l'API Claude Code. Il articule la vision d'agents de support client basés sur les LLM, entièrement hors ligne et privés, pour des plateformes comme WhatsApp et Telegram, avec un accent sur la confidentialité des données.

24
ARTICLEDEV.to AI·02/05/2026

Stuck in the Birch Log Blues 🪵😩

Ce contenu décrit une expérience frustrante où un agent IA, Kiwi-chan, est resté bloqué dans une boucle d'échec en essayant de ramasser des bûches de bouleau, malgré les tentatives de réparation de code par un LLM, Qwen. Le problème souligne la difficulté de l'IA à s'auto-corriger et à reconnaître la nécessité d'explorer plutôt que de se concentrer uniquement sur des corrections immédiates.

24