Reproducibility

9 items

ARTICLE↑ trendingReddit r/MachineLearning·4/15/2026

Failure to Reproduce Modern Paper Claims [D]

Ein Nutzer versuchte, 7 Behauptungen aus modernen Artikeln zu reproduzieren, wobei sich 4 als nicht reproduzierbar erwiesen und 2 aktive GitHub-Probleme aufwiesen. Diese Erfahrung wirft Bedenken hinsichtlich des aktuellen Forschungsstands auf, insbesondere in Bezug auf die Reproduzierbarkeit.

AI research challenges academic integrity open science research quality

ARTICLEDEV.to AI·vor 2T

AgentUnit: Shipping AI like Software

AgentUnit befasst sich mit den Herausforderungen bei der Bereitstellung und Verwaltung von KI-Agenten, indem es einen Paketierungsstandard einführt, der Softwarepaketen wie rpm oder deb ähnelt. Es schafft Disziplin in Bezug auf Identität, Vertrag, Governance und Reproduzierbarkeit und verwandelt Agenten in auditierbare und produktionsreife Einheiten.

deployment Packaging Reproducibility Software engineering

RESEARCH↑ trendingReddit r/MachineLearning·5/5/2026

Struggling to reproduce paper results before improving them — stuck below reported accuracy [R]

Ein Doktorand in KI/Computer Vision hat Schwierigkeiten, die in einem veröffentlichten Papier berichtete Genauigkeit zu reproduzieren, und erreicht konsequent etwa 73% gegenüber der Baselinie des Papiers von ~77%. Trotz sorgfältiger Überprüfungen und Kontaktversuchen mit den Autoren stößt der Student auf eine Reproduktionslücke, die weitere Forschungsarbeiten behindert.

research PhD student machine learning computer vision

ARTICLE↑ trendingReddit r/MachineLearning·4/27/2026

Submitting to top ML Conferences without Sharing code [D]

Ein Forscher fragt, ob man bei Einreichungen zu ML-Konferenzen, wie NIPS, aufgrund von Ideenklau-Bedenken auf das Teilen von Code verzichten und diesen erst nach Annahme veröffentlichen sollte. Er bemerkt, dass Gutachter Code erwarten, aber einige Einreichungen ohne diesen in letzter Zeit nicht beanstandet wurden.

research ethics academic publishing Reproducibility Intellectual Property

RESEARCHarXiv CS.AI·4/14/2026

Seven simple steps for log analysis in AI systems

Diese Forschung schlägt eine standardisierte Pipeline für die Log-Analyse in KI-Systemen vor, um dem derzeitigen Mangel an einem gemeinsamen Ansatz zu begegnen. Sie bietet ein Framework mit konkreten Code-Beispielen unter Verwendung der Inspect Scout-Bibliothek, das Forschende durch Schritte für eine rigorose und reproduzierbare Analyse führt.

Model Evaluation Log Analysis Reproducibility AI Systems

RESEARCHDEV.to AI·5/7/2026

AI agent logs expose reproducibility gaps

KI-Agentenprotokolle decken erhebliche Reproduzierbarkeitslücken auf, wobei autonome Agenten selbst nach anfänglichen Erfolgen, insbesondere bei Web-Navigation, häufig scheitern können. Studien, wie das SWE-chat-Korpus, zeigen, dass weniger als die Hälfte des von Agenten erzeugten Codes in Benutzer-Commits übernommen wird, was eine kritische Diskrepanz zwischen Benchmark-Ergebnissen und der realen Zuverlässigkeit offenbart.

Software Development Reliability Reproducibility Benchmarks

RESEARCHarXiv CS.AI·4/27/2026

An Artifact-based Agent Framework for Adaptive and Reproducible Medical Image Processing

Diese Forschung stellt ein artefaktbasiertes Agenten-Framework zur Verbesserung der medizinischen Bildverarbeitung vor, das sich auf Anpassungsfähigkeit und Reproduzierbarkeit konzentriert. Es führt eine semantische Ebene und einen Artefaktvertrag ein, um eine strukturierte Workflow-Abfrage und zielgerichtete Konfiguration basierend auf datensatzspezifischen Bedingungen zu ermöglichen.

workflow automation machine learning Reproducibility Medical Imaging

RESEARCHarXiv CS.AI·4/27/2026

Read the Paper, Write the Code: Agentic Reproduction of Social-Science Results

Diese Arbeit entwickelt ein agentisches Reproduktionssystem, das LLMs nutzt, um sozialwissenschaftliche Forschungsergebnisse zu reproduzieren, basierend nur auf der Methodenbeschreibung eines Papers und Originaldaten. Bei der Bewertung von vier Agenten-Scaffolds und vier LLMs an 48 Papers zeigte sich, dass veröffentlichte Ergebnisse weitgehend wiederhergestellt werden können, die Leistung jedoch stark variiert und Fehler auf Agentenfehler zurückzuführen sind.

scientific methods social science research LLM Agents Reproducibility

RESEARCHarXiv CS.AI·vor 24T

GraphBit: A Graph-based Agentic Framework for Non-Linear Agent Orchestration

Agentische LLM-Frameworks, die sich auf Prompt-Orchestrierung verlassen, leiden oft unter halluzinierter Routenführung und nicht reproduzierbarer Ausführung. GraphBit ist ein motor-orchestriertes Framework, das Workflows explizit und deterministisch als gerichteten azyklischen Graphen definiert und so Reproduzierbarkeit und Auditierbarkeit mit einer Rust-basierten Engine und einer dreistufigen Speicherarchitektur gewährleistet.

workflow automation Reproducibility LLM Frameworks Graph Orchestration