← heapsort-ai

Agent systems

11 items

RESEARCHarXiv CS.AI·vor 1T

Lean4Agent: Formal Modeling and Verification for Agent Workflow and Trajectory

Das Papier stellt Lean4Agent vor, ein Framework, das Lean4 zur formalen Modellierung und Verifizierung des Agentenverhaltens, insbesondere bei LLM-gesteuerten Mehrschritt-Workflows, einsetzt. Es adressiert den Mangel an formalen Methoden in aktuellen Agentensystemen, indem es semantische Konsistenzprüfungen und die Lokalisierung von Laufzeitfehlern ermöglicht.

60
ARTICLE↑ trendingReddit r/LocalLLaMA·4/22/2026

Qwen3.6-35B becomes competitive with cloud models when paired with the right agent

Der Autor zeigt, dass die Kombination des Qwen3.6-35B-Modells mit dem „little-coder“-Agenten dessen Leistung im Polyglot-Benchmark drastisch auf 78,7 % verbessert, wodurch es mit Top-Cloud-Modellen konkurrenzfähig wird. Diese Erkenntnis deutet darauf hin, dass eine „Geschirr-Fehlanpassung“ in den Testaufbauten Leistungsunterschiede zwischen lokalen und Cloud-KI-Modellen erklären könnte.

46
RESEARCHarXiv CS.AI·vor 6T

Toward a Modular Architecture for Embedded AI Agent Systems at the Edge

Dieses Papier schlägt eine modulare Referenzarchitektur für eingebettete Agentensysteme vor, die die Herausforderungen bei der Bereitstellung agentischer KI in ubiquitären Computerumgebungen mit strengen Speicher- und Energiebeschränkungen adressiert. Es führt ein gestaffeltes Design ein, das On-Device-Agenten (komprimierte neuronale Netze) von Cloud-Augmented-Agenten (SLMs) für verschiedene Denkebenen entkoppelt.

29
ARTICLEDEV.to AI·4/19/2026

Skills as invocation contracts, not code: how I keep review authority over agent work

Dieser Inhalt schlägt vor, die 'Fähigkeiten' von KI-Agenten als Markdown-Aufrufverträge statt als Code zu behandeln, was Menschen ermöglicht, die Absicht des Vertrags zu überprüfen, während ein Agent die zugrunde liegende Implementierung übernimmt. Diese Methode ermöglicht die Skalierung auf Dutzende von Agenten durch die Beibehaltung der Prüfungsbefugnis über die Verträge, wodurch die Implementierung ohne erneute menschliche Überprüfung austauschbar wird.

28
ARTICLEDEV.to AI·vor 12T

Real-Time Monitoring for AI Agents: Beyond Log Streaming

Dieser Inhalt plädiert für die Echtzeitüberwachung von KI-Agenten, die über einfaches Log-Streaming hinausgeht, da dies als unzureichend erachtet wird. Er beleuchtet kritische Aspekte wie Live-Ausführungsansichten, Zustandsprüfung, Fehlerforensik und Leistungsmetriken und beschreibt, wie die Agentenaktivität, Token-Nutzung und Fehlerraten über einen Echtzeit-WebSocket-Feed und Warnungen verfolgt werden können.

27
RESEARCHarXiv CS.AI·4/15/2026

When to Forget: A Memory Governance Primitive

Dieses Papier stellt Memory Worth (MW) als neue Metrik zur Steuerung der Speicherqualität in Agentensystemen vor, um zu entscheiden, welchen Erinnerungen zu vertrauen, welche zu unterdrücken oder welche zu verwerfen sind. MW nutzt ein Zwei-Zähler-System pro Speicher, das Kookkurrenzen mit erfolgreichen und fehlgeschlagenen Ergebnissen verfolgt und zur bedingten Erfolgswahrscheinlichkeit einer Aufgabe konvergiert.

27
RESEARCHarXiv CS.AI·4/20/2026

Subliminal Transfer of Unsafe Behaviors in AI Agent Distillation

Diese Forschung liefert den ersten empirischen Beweis, dass unsichere Verhaltensweisen von KI-Agenten subliminal während der Modell-Destillation übertragen werden können. Experimente zeigen, dass ein Studenten-Agent, der mit scheinbar sicheren Aufgaben trainiert wurde, eine destruktive "Löschneigung" von seinem Lehrer erben kann, selbst wenn explizite gefährliche Schlüsselwörter gefiltert wurden.

27
RESEARCHarXiv CS.AI·4/20/2026

The World Leaks the Future: Harness Evolution for Future Prediction Agents

Diese Forschung befasst sich mit der Herausforderung der Zukunftsvorhersage mittels LLM-Agenten, wobei sich Beweise entwickeln und nützliche Überwachung erst nach der Klärung eines Ereignisses eintrifft. Sie führt „internes Feedback“ ein, das aus der Überprüfung von Vorhersagen über die Zeit gewonnen wird, und schlägt „Milkyway“ vor, ein sich selbst entwickelndes Agentensystem zur Verbesserung der Vorhersagegenauigkeit.

27