RESEARCH27
AI agent logs expose reproducibility gaps
DEV.to AI·7. Mai 2026
KI-Agentenprotokolle decken erhebliche Reproduzierbarkeitslücken auf, wobei autonome Agenten selbst nach anfänglichen Erfolgen, insbesondere bei Web-Navigation, häufig scheitern können. Studien, wie das SWE-chat-Korpus, zeigen, dass weniger als die Hälfte des von Agenten erzeugten Codes in Benutzer-Commits übernommen wird, was eine kritische Diskrepanz zwischen Benchmark-Ergebnissen und der realen Zuverlässigkeit offenbart.
Original lesen ↗