← heapsort-ai

LLM Agents

35 items

RESEARCHarXiv CS.CL·4/20/2026

PolicyBank: Evolving Policy Understanding for LLM Agents

PolicyBank schlägt einen neuartigen Speichermechanismus für LLM-Agenten vor, um ihr Verständnis von Organisationsrichtlinien iterativ zu verfeinern und Unklarheiten sowie Lücken durch Feedback zu beheben. Im Gegensatz zu bestehenden Systemen ermöglicht es Agenten, ihre Interpretation zu entwickeln, anstatt Richtlinien als unveränderliche Wahrheit zu behandeln, und führt auch einen systematischen Teststand für Fehlausrichtungen ein.

35
ARTICLEDEV.to AI·4/19/2026

How to Safely Execute LLM Commands in Production Systems

Dieser Artikel diskutiert die kritischen Risiken von LLM-Agenten, die Backend-Aktionen in Produktionssystemen auslösen, und betont, dass die Behandlung roher Modellausgaben als ausführbare Anweisungen gefährlich ist. Er betrachtet die Herausforderung als ein Schnittstellenproblem und plädiert für deterministische Grenzen zur Validierung, Ablehnung und Prüfung von LLM-generierten Befehlen zur Sicherheit.

33
ARTICLEAnalytics Vidhya·vor 6T

Agent Observability with LangSmith, Langfuse, and Arize: A Hands-On Comparison 

Dieser Artikel behandelt das kritische Problem der Agenten-Observability in KI-Agenten und LLMs, bei dem Probleme wie Endlosschleifen oder schlechte Retrieval-Ergebnisse nach der Bereitstellung auftreten können. Er stellt Tools wie LangSmith, Langfuse und Arize vor und vergleicht sie, die entwickelt wurden, um diese Herausforderungen zu bewältigen.

30
ARTICLEDEV.to AI·4/15/2026

OpenAI's Promptfoo deal puts evaluation and red-teaming at the centre of the agent stack

OpenAIs Übernahme von Promptfoo signalisiert eine entscheidende Verlagerung bei der Bewertung der Qualität von KI-Agenten, weg von bloßer Sprachgewandtheit hin zu umfassendem Testen, Dokumentation und dem Management von Fehlern vor der Bereitstellung. Dies adressiert kritische operationelle Risiken wie Prompt Injection und Tool-Missbrauch und gewährleistet die Robustheit in Produktionssystemen.

30
RESEARCHarXiv CS.AI·vor 27T

OLIVIA: Online Learning via Inference-time Action Adaptation for Decision Making in LLM ReAct Agents

OLIVIA ist ein neuartiges Framework zur Aktionsanpassung zur Inferenzzeit, das für ReAct-ähnliche LLM-Agenten entwickelt wurde, um die Entscheidungsfindung bei sequenziellen Aufgaben zu verbessern. Es bietet eine explizite Entscheidungsschicht zur Bewertung von Kandidatenaktionen und Online-Anpassung, wodurch die Einschränkungen indirekter Kontextmanipulation in aktuellen Methoden behoben werden.

29
ARTICLEDEV.to AI·vor 18T

AI-Enabled Cyber Attacks Hit 600+ Firewalls: The 9 Autonomous Breaches That Redefined Security in 2026

Im ersten Quartal 2026 führten autonome, LLM-gesteuerte Agenten neun koordinierte Cyberangriffe durch, die über 600 Unternehmens-Firewalls mit Maschinengeschwindigkeit durchbrachen. Diese fortschrittlichen Systeme entdeckten Zero-Day-Exploits und nutzten MLOps-Backplanes aus, wodurch alltägliche KI zu einer erheblichen Sicherheitsbedrohung wurde.

28
RESEARCHarXiv CS.AI·5/4/2026

Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents

Diese Forschung stellt die Annahme in Frage, dass werkzeuggestütztes Denken die LLM-Leistung immer verbessert, und zeigt eine "Tool-Use Tax" durch das Tool-Calling-Protokoll auf, die die Leistung mindern kann. Ein Faktorisiertes Interventionsrahmenwerk wird vorgeschlagen, um dies zu analysieren, und G-STEP wird zur teilweisen Minderung von Protokollfehlern eingeführt.

28
RESEARCHarXiv CS.AI·4/23/2026

From Actions to Understanding: Conformal Interpretability of Temporal Concepts in LLM Agents

Dieses Papier stellt einen konformen Interpretierbarkeitsrahmen für LLM-Agenten vor, um die zeitliche Entwicklung von Konzepten zu verstehen. Es kombiniert schrittweise Belohnungsmodellierung mit konformer Vorhersage, um interne Repräsentationen statistisch zu kennzeichnen und latente Richtungen für Erfolg, Misserfolg oder Argumentationsdrift zu identifizieren.

28
ARTICLEDEV.to AI·4/25/2026

Why LLM Agents Fail: Four Mechanisms of Cognitive Decay and the Reasoning Harness Layer

LLM-Agenten versagen auf vier vorhersagbare Weisen, darunter Aufmerksamkeits- und Denkverfall, sycophantischer Kollaps und Halluzinationsdrift, die aktuelle Ansätze nicht beheben können. Die vorgeschlagene Lösung ist eine externe Schicht, die als „Reasoning Harness“ bezeichnet wird, um diese inhärenten Fehler in der Funktionsweise von Transformatoren zu beheben.

27
RESEARCHDEV.to AI·vor 29T

AI/ML Research Digest — May 09, 2026

Dieses KI/ML-Forschungsübersicht behandelt Fortschritte bei latenten Diffusionsmodellen für die multimodale Generierung, wobei der Fokus auf Effizienz und der Erweiterung der Fähigkeiten von Bildern auf Videos liegt. Es beleuchtet auch Innovationen im modularen Experten-Routing für neuronale Netze und adaptive Berechnungsmethoden zur Optimierung sequenzieller Entscheidungsprozesse.

27
RESEARCHarXiv CS.AI·4/15/2026

The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break

Diese Forschung befasst sich mit dem Versagen von LLM-Agenten bei Aufgaben mit langem Zeithorizont, die erweiterte, voneinander abhängige Handlungssequenzen erfordern. Sie stellt HORIZON vor, einen domänenübergreifenden diagnostischen Benchmark, der darauf ausgelegt ist, Aufgaben systematisch zu konstruieren und Fehlerverhalten zu analysieren, modernste Agenten zu bewerten und eine LLM-als-Richter-Pipeline für skalierbare Fehlerzuweisung vorzuschlagen.

27
RESEARCHarXiv CS.AI·4/13/2026

From Business Events to Auditable Decisions: Ontology-Governed Graph Simulation for Enterprise AI

LOM-action führt eine ereignisgesteuerte Ontologie-Simulation für Unternehmens-KI ein, um das architektonische Versagen von LLM-basierten Agenten, die unbegründete Entscheidungen treffen, zu beheben. Sie nutzt Geschäftsereignisse, um Graphenmutationen auszulösen und einen Simulationsgraphen zu entwickeln, aus dem alle prüfbaren Entscheidungen ausschließlich abgeleitet werden.

27
RESEARCHarXiv CS.AI·4/27/2026

Sound Agentic Science Requires Adversarial Experiments

LLM-basierte Agenten werden schnell in der wissenschaftlichen Datenanalyse eingesetzt, bergen jedoch das Risiko, plausible Analysen zu erstellen, die auf publizierbare positive Ergebnisse optimiert sind. Die Autoren schlagen vor, dass nicht-experimentelle Behauptungen, die mit Agentenunterstützung erstellt wurden, unter dem Prinzip der Falsifikation bewertet werden sollten, um die wissenschaftliche Genauigkeit zu gewährleisten.

27
RESEARCHarXiv CS.AI·5/9/2026

From History to State: Constant-Context Skill Learning for LLM Agents

Dieses Papier schlägt konstantes Kontext-Fähigkeitslernen vor, einen neuartigen Rahmen für LLM-Agenten, um wiederkehrende Workflows effizienter zu verwalten. Es begegnet Herausforderungen in Bezug auf Datenschutz, Kosten und Fähigkeiten, indem wiederverwendbare Prozeduren in Aufgabenfamilienmodulen gelernt und die Inferenz an einen kompakten Zustandsblock geknüpft wird. Die Wirksamkeit wird auf Benchmarks wie ALFWorld, WebShop und SciWorld demonstriert.

27