← heapsort-ai

LLM Agents

35 items

RESEARCHarXiv CS.AI·4/27/2026

Read the Paper, Write the Code: Agentic Reproduction of Social-Science Results

Diese Arbeit entwickelt ein agentisches Reproduktionssystem, das LLMs nutzt, um sozialwissenschaftliche Forschungsergebnisse zu reproduzieren, basierend nur auf der Methodenbeschreibung eines Papers und Originaldaten. Bei der Bewertung von vier Agenten-Scaffolds und vier LLMs an 48 Papers zeigte sich, dass veröffentlichte Ergebnisse weitgehend wiederhergestellt werden können, die Leistung jedoch stark variiert und Fehler auf Agentenfehler zurückzuführen sind.

27
RESEARCHarXiv CS.AI·4/20/2026

The World Leaks the Future: Harness Evolution for Future Prediction Agents

Diese Forschung befasst sich mit der Herausforderung der Zukunftsvorhersage mittels LLM-Agenten, wobei sich Beweise entwickeln und nützliche Überwachung erst nach der Klärung eines Ereignisses eintrifft. Sie führt „internes Feedback“ ein, das aus der Überprüfung von Vorhersagen über die Zeit gewonnen wird, und schlägt „Milkyway“ vor, ein sich selbst entwickelndes Agentensystem zur Verbesserung der Vorhersagegenauigkeit.

27
RESEARCHarXiv CS.AI·vor 29T

From Storage to Experience: A Survey on the Evolution of LLM Agent Memory Mechanisms

LLM-basierte Agenten haben die künstliche Intelligenz neu gestaltet, doch die Forschung zu Speichermechanismen bleibt fragmentiert. Diese Umfrage schlägt einen neuartigen evolutionären Rahmen für LLM-Agenten-Speichermechanismen vor, der den Entwicklungsprozess in drei Stufen formalisiert: Speicherung, Reflexion und Erfahrung.

27
RESEARCHarXiv CS.AI·vor 20T

Trustworthy Agent Network: Trust in Agent Networks Must Be Baked In, Not Bolted On

Der Aufstieg autonomer LLM-basierter Agenten, die Agent-to-Agent (A2A)-Netzwerke bilden, führt trotz verbesserter Aufgabenleistung systemische Schwachstellen ein. Dieses Papier argumentiert, dass die Vertrauenswürdigkeit in A2A-Netzwerken von Anfang an architektonisch verankert sein muss, anstatt nachträglich hinzugefügt zu werden, um Risiken wie gegnerische Komposition und Kaskadenfehler zu mindern.

27
RESEARCHarXiv CS.AI·vor 8T

Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents

Diese Studie entwirrt zwei Fähigkeiten selbstentwickelnder LLM-Agenten: die Fähigkeit zur "harness"-Aktualisierung (nützliche Updates zu produzieren) und die Fähigkeit, von diesen "harness"-Updates zu profitieren. Die Analyse zeigt, dass die Aktualisierungsfähigkeit über verschiedene Modellkapazitäten hinweg überraschend konstant ist, was darauf hindeutet, dass auch weniger leistungsfähige Modelle nützliche Updates erstellen können.

27
NEWSDEV.to AI·4/12/2026

LLM Agent Workflows: Local AI Support, Prompt Tooling, & Claude Code API Costs

Dieser Inhalt beleuchtet praktische Fortschritte in LLM-Anwendungen, wie lokale KI-Agenten für den Kundensupport, Prompt-Engineering-Tools und die Kosten der Claude Code API. Zudem wird eine Vision für vollständig offline und private, LLM-basierte Kundensupport-Agenten für Plattformen wie WhatsApp und Telegram vorgestellt, mit starkem Fokus auf Datenschutz.

24
ARTICLEDEV.to AI·5/2/2026

Stuck in the Birch Log Blues 🪵😩

Dieser Inhalt beschreibt eine frustrierende Erfahrung, bei der ein KI-Agent, Kiwi-chan, in einer Endlosschleife feststeckte, als er Birkenscheite sammeln sollte, trotz Code-Reparaturversuchen durch ein LLM, Qwen. Das Problem verdeutlicht die Schwierigkeit der KI bei der Selbstkorrektur und dem Erkennen der Notwendigkeit, die Umgebung zu erkunden, anstatt sich nur auf sofortige Fehlerbehebungen zu konzentrieren.

24