← heapsort-ai

Reproducibility

9 items

ARTICLEDEV.to AI·vor 2T

AgentUnit: Shipping AI like Software

AgentUnit befasst sich mit den Herausforderungen bei der Bereitstellung und Verwaltung von KI-Agenten, indem es einen Paketierungsstandard einführt, der Softwarepaketen wie rpm oder deb ähnelt. Es schafft Disziplin in Bezug auf Identität, Vertrag, Governance und Reproduzierbarkeit und verwandelt Agenten in auditierbare und produktionsreife Einheiten.

36
RESEARCH↑ trendingReddit r/MachineLearning·5/5/2026

Struggling to reproduce paper results before improving them — stuck below reported accuracy [R]

Ein Doktorand in KI/Computer Vision hat Schwierigkeiten, die in einem veröffentlichten Papier berichtete Genauigkeit zu reproduzieren, und erreicht konsequent etwa 73% gegenüber der Baselinie des Papiers von ~77%. Trotz sorgfältiger Überprüfungen und Kontaktversuchen mit den Autoren stößt der Student auf eine Reproduktionslücke, die weitere Forschungsarbeiten behindert.

36
RESEARCHDEV.to AI·5/7/2026

AI agent logs expose reproducibility gaps

KI-Agentenprotokolle decken erhebliche Reproduzierbarkeitslücken auf, wobei autonome Agenten selbst nach anfänglichen Erfolgen, insbesondere bei Web-Navigation, häufig scheitern können. Studien, wie das SWE-chat-Korpus, zeigen, dass weniger als die Hälfte des von Agenten erzeugten Codes in Benutzer-Commits übernommen wird, was eine kritische Diskrepanz zwischen Benchmark-Ergebnissen und der realen Zuverlässigkeit offenbart.

27
RESEARCHarXiv CS.AI·4/27/2026

An Artifact-based Agent Framework for Adaptive and Reproducible Medical Image Processing

Diese Forschung stellt ein artefaktbasiertes Agenten-Framework zur Verbesserung der medizinischen Bildverarbeitung vor, das sich auf Anpassungsfähigkeit und Reproduzierbarkeit konzentriert. Es führt eine semantische Ebene und einen Artefaktvertrag ein, um eine strukturierte Workflow-Abfrage und zielgerichtete Konfiguration basierend auf datensatzspezifischen Bedingungen zu ermöglichen.

27
RESEARCHarXiv CS.AI·4/27/2026

Read the Paper, Write the Code: Agentic Reproduction of Social-Science Results

Diese Arbeit entwickelt ein agentisches Reproduktionssystem, das LLMs nutzt, um sozialwissenschaftliche Forschungsergebnisse zu reproduzieren, basierend nur auf der Methodenbeschreibung eines Papers und Originaldaten. Bei der Bewertung von vier Agenten-Scaffolds und vier LLMs an 48 Papers zeigte sich, dass veröffentlichte Ergebnisse weitgehend wiederhergestellt werden können, die Leistung jedoch stark variiert und Fehler auf Agentenfehler zurückzuführen sind.

27
RESEARCHarXiv CS.AI·vor 24T

GraphBit: A Graph-based Agentic Framework for Non-Linear Agent Orchestration

Agentische LLM-Frameworks, die sich auf Prompt-Orchestrierung verlassen, leiden oft unter halluzinierter Routenführung und nicht reproduzierbarer Ausführung. GraphBit ist ein motor-orchestriertes Framework, das Workflows explizit und deterministisch als gerichteten azyklischen Graphen definiert und so Reproduzierbarkeit und Auditierbarkeit mit einer Rust-basierten Engine und einer dreistufigen Speicherarchitektur gewährleistet.

27