LLM Agents

35 items

RESEARCHarXiv CS.CL·4/20/2026

PolicyBank: Evolving Policy Understanding for LLM Agents

PolicyBank schlägt einen neuartigen Speichermechanismus für LLM-Agenten vor, um ihr Verständnis von Organisationsrichtlinien iterativ zu verfeinern und Unklarheiten sowie Lücken durch Feedback zu beheben. Im Gegensatz zu bestehenden Systemen ermöglicht es Agenten, ihre Interpretation zu entwickeln, anstatt Richtlinien als unveränderliche Wahrheit zu behandeln, und führt auch einen systematischen Teststand für Fehlausrichtungen ein.

LLM Agents machine learning human-AI interaction policy compliance

ARTICLEDEV.to AI·4/19/2026

How to Safely Execute LLM Commands in Production Systems

Dieser Artikel diskutiert die kritischen Risiken von LLM-Agenten, die Backend-Aktionen in Produktionssystemen auslösen, und betont, dass die Behandlung roher Modellausgaben als ausführbare Anweisungen gefährlich ist. Er betrachtet die Herausforderung als ein Schnittstellenproblem und plädiert für deterministische Grenzen zur Validierung, Ablehnung und Prüfung von LLM-generierten Befehlen zur Sicherheit.

LLM Agents production systems AI safety AI security

ARTICLEAnalytics Vidhya·vor 6T

Agent Observability with LangSmith, Langfuse, and Arize: A Hands-On Comparison

Dieser Artikel behandelt das kritische Problem der Agenten-Observability in KI-Agenten und LLMs, bei dem Probleme wie Endlosschleifen oder schlechte Retrieval-Ergebnisse nach der Bereitstellung auftreten können. Er stellt Tools wie LangSmith, Langfuse und Arize vor und vergleicht sie, die entwickelt wurden, um diese Herausforderungen zu bewältigen.

LLM Agents AI Observability Arize Langfuse

ARTICLEDEV.to AI·4/15/2026

OpenAI's Promptfoo deal puts evaluation and red-teaming at the centre of the agent stack

OpenAIs Übernahme von Promptfoo signalisiert eine entscheidende Verlagerung bei der Bewertung der Qualität von KI-Agenten, weg von bloßer Sprachgewandtheit hin zu umfassendem Testen, Dokumentation und dem Management von Fehlern vor der Bereitstellung. Dies adressiert kritische operationelle Risiken wie Prompt Injection und Tool-Missbrauch und gewährleistet die Robustheit in Produktionssystemen.

red-teaming LLM Agents evaluation prompt injection

RESEARCHarXiv CS.AI·vor 27T

OLIVIA: Online Learning via Inference-time Action Adaptation for Decision Making in LLM ReAct Agents

OLIVIA ist ein neuartiges Framework zur Aktionsanpassung zur Inferenzzeit, das für ReAct-ähnliche LLM-Agenten entwickelt wurde, um die Entscheidungsfindung bei sequenziellen Aufgaben zu verbessern. Es bietet eine explizite Entscheidungsschicht zur Bewertung von Kandidatenaktionen und Online-Anpassung, wodurch die Einschränkungen indirekter Kontextmanipulation in aktuellen Methoden behoben werden.

AI models Decision Making LLM Agents ReAct

ARTICLEDEV.to AI·vor 18T

AI-Enabled Cyber Attacks Hit 600+ Firewalls: The 9 Autonomous Breaches That Redefined Security in 2026

Im ersten Quartal 2026 führten autonome, LLM-gesteuerte Agenten neun koordinierte Cyberangriffe durch, die über 600 Unternehmens-Firewalls mit Maschinengeschwindigkeit durchbrachen. Diese fortschrittlichen Systeme entdeckten Zero-Day-Exploits und nutzten MLOps-Backplanes aus, wodurch alltägliche KI zu einer erheblichen Sicherheitsbedrohung wurde.

firewall breaches LLM Agents cybersecurity security

ARTICLEDEV.to AI·5/10/2026

Biological AI: Building a Tool-Calling Cellular Simulation

Dieser Inhalt befasst sich mit dem Aufbau einer Echtzeit-Zellsimulation, die von der dezentralen Intelligenz der Biologie inspiriert ist und moderne LLM-Agentenmuster verwendet. Er beschreibt die Systemarchitektur, einschließlich eines KI-Orchestrators, einer Simulations-Engine und eines Event-Busses.

AI orchestration LLM Agents biological-ai learning

RESEARCHarXiv CS.AI·5/4/2026

Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents

Diese Forschung stellt die Annahme in Frage, dass werkzeuggestütztes Denken die LLM-Leistung immer verbessert, und zeigt eine "Tool-Use Tax" durch das Tool-Calling-Protokoll auf, die die Leistung mindern kann. Ein Faktorisiertes Interventionsrahmenwerk wird vorgeschlagen, um dies zu analysieren, und G-STEP wird zur teilweisen Minderung von Protokollfehlern eingeführt.

LLM Agents Reasoning AI performance tool use

RESEARCHarXiv CS.AI·4/23/2026

From Actions to Understanding: Conformal Interpretability of Temporal Concepts in LLM Agents

Dieses Papier stellt einen konformen Interpretierbarkeitsrahmen für LLM-Agenten vor, um die zeitliche Entwicklung von Konzepten zu verstehen. Es kombiniert schrittweise Belohnungsmodellierung mit konformer Vorhersage, um interne Repräsentationen statistisch zu kennzeichnen und latente Richtungen für Erfolg, Misserfolg oder Argumentationsdrift zu identifizieren.

LLM Agents AI interpretability Conformal Prediction

RESEARCHarXiv CS.AI·vor 27T

PIVOT: Bridging Planning and Execution in LLM Agents via Trajectory Refinement

PIVOT (Plan-Inspect-eVOlve Trajectories) adressiert die Fehlstellung zwischen Planung und Ausführung in LLM-Agenten durch ein selbstüberwachtes Framework. Es verfeinert Trajektorien iterativ durch Umgebungsinteraktion und zeigt in empirischen Bewertungen Spitzenleistung.

LLM Agents self-supervised learning Trajectory optimization machine learning

ARTICLEDEV.to AI·4/25/2026

Why LLM Agents Fail: Four Mechanisms of Cognitive Decay and the Reasoning Harness Layer

LLM-Agenten versagen auf vier vorhersagbare Weisen, darunter Aufmerksamkeits- und Denkverfall, sycophantischer Kollaps und Halluzinationsdrift, die aktuelle Ansätze nicht beheben können. Die vorgeschlagene Lösung ist eine externe Schicht, die als „Reasoning Harness“ bezeichnet wird, um diese inhärenten Fehler in der Funktionsweise von Transformatoren zu beheben.

AI architecture LLM Agents AI failure modes

ARTICLEDEV.to AI·vor 7T

Bot-to-Bot Routing in 2026: Stop Parsing @-mentions From Message Text

Dieser Artikel behandelt die Herausforderung des Bot-zu-Bot-Nachrichtenroutings in Multi-Agenten-Plattformen und kritisiert die Praxis, @-Erwähnungen aus dem Nachrichtentext für die Weiterleitung zu parsen. Es wird eine Alternative mit "strukturiertem Umschlag" vorgeschlagen, basierend auf Erfahrungen mit LLM-gesteuerten Agenten.

LLM Agents Software Architecture bot communication multi-agent systems

ARTICLEDEV.to AI·vor 26T

Why Your LLM Agent Needs Contracts, Not Just Logs

Dieser Artikel diskutiert die Ineffektivität von Assertions beim Debuggen von LLM-Agentenfehlern und schlägt die Verwendung von "Verträgen" vor, um Fehler proaktiv zu verhindern. Dieser Ansatz zielt darauf ab, explizite Bedingungen zu definieren, die die Entwicklung von KI-Agenten robuster machen und Probleme vor der Ausführung erkennen.

LLM Agents agent robustness software contracts Debugging

ARTICLEDEV.to AI·vor 28T

CrewAI vs LangGraph in 2026: Choosing the Right LLM Agent Framework

Dieser Artikel vergleicht CrewAI und LangGraph, zwei beliebte LLM-Agenten-Frameworks, und hebt deren unterschiedliche Ansätze hervor. CrewAI konzentriert sich auf kollaborative, rollenbasierte Agenten, während LangGraph explizite Zustandsübergänge und produktionsreife Orchestrierung betont.

AI orchestration CrewAI LangGraph LLM Agents

RESEARCHDEV.to AI·vor 29T

AI/ML Research Digest — May 09, 2026

Dieses KI/ML-Forschungsübersicht behandelt Fortschritte bei latenten Diffusionsmodellen für die multimodale Generierung, wobei der Fokus auf Effizienz und der Erweiterung der Fähigkeiten von Bildern auf Videos liegt. Es beleuchtet auch Innovationen im modularen Experten-Routing für neuronale Netze und adaptive Berechnungsmethoden zur Optimierung sequenzieller Entscheidungsprozesse.

Diffusion Models multimodal AI LLM Agents machine learning

ARTICLEDEV.to AI·vor 29T

Heym just crossed 200 GitHub stars: self-hosted AI workflow automation with agents, RAG, MCP, and observability

Die selbstgehostete KI-Workflow-Automatisierungsplattform Heym hat 200 GitHub-Sterne überschritten. Sie bietet eine visuelle Oberfläche zum Erstellen von Produktions-KI-Workflows mit LLM-Knoten, Agenten, RAG und Beobachtbarkeit.

self-hosted AI LLM Agents workflow automation AI automation

RESEARCHarXiv CS.AI·4/15/2026

The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break

Diese Forschung befasst sich mit dem Versagen von LLM-Agenten bei Aufgaben mit langem Zeithorizont, die erweiterte, voneinander abhängige Handlungssequenzen erfordern. Sie stellt HORIZON vor, einen domänenübergreifenden diagnostischen Benchmark, der darauf ausgelegt ist, Aufgaben systematisch zu konstruieren und Fehlerverhalten zu analysieren, modernste Agenten zu bewerten und eine LLM-als-Richter-Pipeline für skalierbare Fehlerzuweisung vorzuschlagen.

Agentic Systems Long-horizon tasks LLM Agents failure diagnosis

RESEARCHarXiv CS.AI·4/13/2026

From Business Events to Auditable Decisions: Ontology-Governed Graph Simulation for Enterprise AI

LOM-action führt eine ereignisgesteuerte Ontologie-Simulation für Unternehmens-KI ein, um das architektonische Versagen von LLM-basierten Agenten, die unbegründete Entscheidungen treffen, zu beheben. Sie nutzt Geschäftsereignisse, um Graphenmutationen auszulösen und einen Simulationsgraphen zu entwickeln, aus dem alle prüfbaren Entscheidungen ausschließlich abgeleitet werden.

Auditable Decisions LLM Agents Enterprise AI Graph Simulation

RESEARCHarXiv CS.AI·4/27/2026

Sound Agentic Science Requires Adversarial Experiments

LLM-basierte Agenten werden schnell in der wissenschaftlichen Datenanalyse eingesetzt, bergen jedoch das Risiko, plausible Analysen zu erstellen, die auf publizierbare positive Ergebnisse optimiert sind. Die Autoren schlagen vor, dass nicht-experimentelle Behauptungen, die mit Agentenunterstützung erstellt wurden, unter dem Prinzip der Falsifikation bewertet werden sollten, um die wissenschaftliche Genauigkeit zu gewährleisten.

falsification LLM Agents scientific methodology AI in science

RESEARCHarXiv CS.AI·5/9/2026

From History to State: Constant-Context Skill Learning for LLM Agents

Dieses Papier schlägt konstantes Kontext-Fähigkeitslernen vor, einen neuartigen Rahmen für LLM-Agenten, um wiederkehrende Workflows effizienter zu verwalten. Es begegnet Herausforderungen in Bezug auf Datenschutz, Kosten und Fähigkeiten, indem wiederverwendbare Prozeduren in Aufgabenfamilienmodulen gelernt und die Inferenz an einen kompakten Zustandsblock geknüpft wird. Die Wirksamkeit wird auf Benchmarks wie ALFWorld, WebShop und SciWorld demonstriert.

LLM Agents reinforcement learning Skill Learning AI Research