LLM Agents

35 items

RESEARCHarXiv CS.AI·4/27/2026

Read the Paper, Write the Code: Agentic Reproduction of Social-Science Results

Diese Arbeit entwickelt ein agentisches Reproduktionssystem, das LLMs nutzt, um sozialwissenschaftliche Forschungsergebnisse zu reproduzieren, basierend nur auf der Methodenbeschreibung eines Papers und Originaldaten. Bei der Bewertung von vier Agenten-Scaffolds und vier LLMs an 48 Papers zeigte sich, dass veröffentlichte Ergebnisse weitgehend wiederhergestellt werden können, die Leistung jedoch stark variiert und Fehler auf Agentenfehler zurückzuführen sind.

scientific methods social science research LLM Agents Reproducibility

RESEARCHarXiv CS.AI·4/20/2026

The World Leaks the Future: Harness Evolution for Future Prediction Agents

Diese Forschung befasst sich mit der Herausforderung der Zukunftsvorhersage mittels LLM-Agenten, wobei sich Beweise entwickeln und nützliche Überwachung erst nach der Klärung eines Ereignisses eintrifft. Sie führt „internes Feedback“ ein, das aus der Überprüfung von Vorhersagen über die Zeit gewonnen wird, und schlägt „Milkyway“ vor, ein sich selbst entwickelndes Agentensystem zur Verbesserung der Vorhersagegenauigkeit.

LLM Agents future prediction self-evolving agents Agent systems

RESEARCHarXiv CS.LG·vor 25T

EvolveMem:Self-Evolving Memory Architecture via AutoResearch for LLM Agents

EvolveMem stellt eine sich selbst entwickelnde Speicherarchitektur für LLM-Agenten vor, die eine Ko-Evolution von gespeichertem Wissen und Abrufmechanismen ermöglicht. Sie optimiert ihre Konfiguration autonom mithilfe eines LLM-gestützten Diagnosemoduls, was zu einem geschlossenen AutoResearch-Prozess führt.

LLM Agents AutoResearch self-evolving systems memory architecture

RESEARCHarXiv CS.AI·vor 28T

SkillLens: Adaptive Multi-Granularity Skill Reuse for Cost-Efficient LLM Agents

SkillLens ist ein hierarchisches Skill-Evolutions-Framework für LLM-Agenten, das Skills in gemischter Granularität organisiert und wiederverwendet. Es ermöglicht Agenten, kompatible Teils-Skills direkt wiederzuverwenden und nur lokal nicht übereinstimmende Teile anzupassen, wodurch Kosten und Relevanz optimiert werden.

Skill reuse LLM Agents AI frameworks Natural Language Processing

RESEARCHarXiv CS.AI·vor 29T

From Storage to Experience: A Survey on the Evolution of LLM Agent Memory Mechanisms

LLM-basierte Agenten haben die künstliche Intelligenz neu gestaltet, doch die Forschung zu Speichermechanismen bleibt fragmentiert. Diese Umfrage schlägt einen neuartigen evolutionären Rahmen für LLM-Agenten-Speichermechanismen vor, der den Entwicklungsprozess in drei Stufen formalisiert: Speicherung, Reflexion und Erfahrung.

Evolutionary framework LLM Agents research Memory mechanisms

RESEARCHarXiv CS.AI·vor 20T

Trustworthy Agent Network: Trust in Agent Networks Must Be Baked In, Not Bolted On

Der Aufstieg autonomer LLM-basierter Agenten, die Agent-to-Agent (A2A)-Netzwerke bilden, führt trotz verbesserter Aufgabenleistung systemische Schwachstellen ein. Dieses Papier argumentiert, dass die Vertrauenswürdigkeit in A2A-Netzwerken von Anfang an architektonisch verankert sein muss, anstatt nachträglich hinzugefügt zu werden, um Risiken wie gegnerische Komposition und Kaskadenfehler zu mindern.

LLM Agents trustworthiness security agent networks

RESEARCHarXiv CS.AI·vor 8T

Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents

Diese Studie entwirrt zwei Fähigkeiten selbstentwickelnder LLM-Agenten: die Fähigkeit zur "harness"-Aktualisierung (nützliche Updates zu produzieren) und die Fähigkeit, von diesen "harness"-Updates zu profitieren. Die Analyse zeigt, dass die Aktualisierungsfähigkeit über verschiedene Modellkapazitäten hinweg überraschend konstant ist, was darauf hindeutet, dass auch weniger leistungsfähige Modelle nützliche Updates erstellen können.

AI capabilities LLM Agents machine learning self-evolution

ARTICLEDEV.to AI·4/16/2026

Ai Financial Agents Hallucinating With Real Money How To Build Brokerage Grade Guardrails

Autonome LLM-Agenten im Finanzbereich bergen erhebliche Risiken, da Halluzinationen zu realen Geldverlusten und behördlicher Prüfung führen können. KI-Orchestrierungsebenen müssen als Tier-1-Infrastruktur mit Schutzmaßnahmen auf Broker-Niveau behandelt und vom ersten Tag an in die Kontrollumgebung integriert werden.

LLM Agents Financial services risk management AI safety

RESEARCHarXiv CS.AI·4/6/2026

Aligning Progress and Feasibility: A Neuro-Symbolic Dual Memory Framework for Long-Horizon LLM Agents

O título sugere uma pesquisa sobre um framework neuro-simbólico de memória dupla para agentes LLM, visando alinhar progresso e viabilidade em tarefas de longo horizonte. Ele aborda a melhoria da capacidade de agentes de IA para planejar e executar ações complexas ao longo do tempo.

memory architectures LLMs LLM Agents Neuro-Simbólico

RESEARCHarXiv CS.AI·4/6/2026

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems

Este título descreve uma pesquisa focada na verificação e validação de sistemas autônomos confiáveis, utilizando uma abordagem neuro-simbólica integrada a agentes LLM. O objetivo é garantir a robustez e a segurança de sistemas de IA avançados.

LLM Agents Autonomous systems Verification and Validation trustworthy AI

RESEARCHarXiv CS.AI·vor 21T

ANNEAL: Adapting LLM Agents via Governed Symbolic Patch Learning

ANNEAL ist ein neuro-symbolischer Agent, der wiederkehrende LLM-Agentenfehler durch gesteuerte symbolische Änderungen an einem Prozesswissensgraphen behebt. Er lokalisiert den verantwortlichen Operator, synthetisiert einen typisierten Patch und validiert diesen mittels symbolischer Schutzmaßnahmen und Canary-Tests, bevor er die Änderung übernimmt.

LLM Agents Knowledge Graphs error recovery AI Governance

ARTICLEDEV.to AI·4/14/2026

Qwen Models for Hermes Agent — Open-Source Agent Workflows

Die Apache 2.0 Lizenz von Qwen3 ermöglicht flexible Hermes Agent Workflows, die Feinabstimmung, private Bereitstellung und kommerzielle Nutzung ohne Einschränkungen unterstützen. Die gesamte Qwen3-Reihe, die lokal über Ollama läuft, erleichtert diverse Agenten-Anwendungsfälle auf bescheidener Hardware und ohne API-Kosten.

Apache 2.0 LLM Agents Hermes Agent open-source AI

NEWSDEV.to AI·4/12/2026

LLM Agent Workflows: Local AI Support, Prompt Tooling, & Claude Code API Costs

Dieser Inhalt beleuchtet praktische Fortschritte in LLM-Anwendungen, wie lokale KI-Agenten für den Kundensupport, Prompt-Engineering-Tools und die Kosten der Claude Code API. Zudem wird eine Vision für vollständig offline und private, LLM-basierte Kundensupport-Agenten für Plattformen wie WhatsApp und Telegram vorgestellt, mit starkem Fokus auf Datenschutz.

prompt-engineering LLM Agents data privacy Local AI

ARTICLEDEV.to AI·5/2/2026

Stuck in the Birch Log Blues 🪵😩

Dieser Inhalt beschreibt eine frustrierende Erfahrung, bei der ein KI-Agent, Kiwi-chan, in einer Endlosschleife feststeckte, als er Birkenscheite sammeln sollte, trotz Code-Reparaturversuchen durch ein LLM, Qwen. Das Problem verdeutlicht die Schwierigkeit der KI bei der Selbstkorrektur und dem Erkennen der Notwendigkeit, die Umgebung zu erkunden, anstatt sich nur auf sofortige Fehlerbehebungen zu konzentrieren.

LLM Agents AI debugging AI failure

RESEARCHarXiv CS.AI·4/6/2026

Let's Have a Conversation: Designing and Evaluating LLM Agents for Interactive Optimization

Este conteúdo aborda a concepção e avaliação de agentes LLM para otimização interativa. Ele explora métodos para criar e medir a eficácia de sistemas de IA conversacionais.

Interactive Optimization LLM Agents evaluation AI design