← heapsort-ai

Reproducibility

9 items

RESEARCH↑ trendingReddit r/MachineLearning·05/05/2026

Struggling to reproduce paper results before improving them — stuck below reported accuracy [R]

Un doctorant en IA/vision par ordinateur peine à reproduire la précision rapportée dans un article publié, obtenant constamment environ 73% contre les 77% de la référence du document. Malgré des vérifications minutieuses et des tentatives de contact avec les auteurs, l'étudiant rencontre un écart de reproductibilité qui entrave la poursuite de ses recherches.

36
ARTICLE↑ trendingReddit r/MachineLearning·27/04/2026

Submitting to top ML Conferences without Sharing code [D]

Un chercheur demande s'il faut arrêter de partager le code lors des soumissions aux conférences de ML, comme NIPS, en raison de craintes de vol d'idées, suggérant de le publier seulement après acceptation. Il souligne que bien que les réviseurs s'attendent souvent au code, d'autres aspects de la reproductibilité pourraient être mis en avant.

35
ARTICLEDEV.to AI·il y a 2j

AgentUnit: Shipping AI like Software

AgentUnit répond aux défis de déploiement et de gestion des agents d'IA en introduisant une norme d'empaquetage similaire aux paquets logiciels comme rpm ou deb. Il apporte de la discipline autour de l'identité, du contrat, de la gouvernance et de la reproductibilité, transformant les agents en unités auditables et prêtes pour la production.

34
RESEARCHDEV.to AI·07/05/2026

AI agent logs expose reproducibility gaps

Les journaux des agents IA révèlent d'importantes lacunes en matière de reproductibilité, où les agents autonomes peuvent passer du succès à l'échec de manière significative, surtout dans les tâches de navigation web. Des recherches, y compris le corpus SWE-chat, montrent que moins de la moitié du code produit par les agents est intégré dans les commits des utilisateurs, soulignant un écart critique entre les scores de référence et la fiabilité réelle.

27
RESEARCHarXiv CS.AI·27/04/2026

An Artifact-based Agent Framework for Adaptive and Reproducible Medical Image Processing

Cette recherche présente un cadre d'agent basé sur des artefacts pour améliorer le traitement des images médicales, axé sur l'adaptabilité et la reproductibilité. Il introduit une couche sémantique et un contrat d'artefact pour permettre l'interrogation structurée du flux de travail et la configuration conditionnée par des objectifs, selon les conditions spécifiques de l'ensemble de données.

27
RESEARCHarXiv CS.AI·27/04/2026

Read the Paper, Write the Code: Agentic Reproduction of Social-Science Results

Ce travail développe un système de reproduction agentique utilisant des LLM pour répliquer des résultats de recherche en sciences sociales, en se basant uniquement sur la description des méthodes d'un article et les données originales. En évaluant différents agents et LLM sur 48 articles, il constate que les résultats publiés peuvent être largement retrouvés, mais avec des performances variables et des erreurs attribuables aux agents.

27
RESEARCHarXiv CS.AI·il y a 24j

GraphBit: A Graph-based Agentic Framework for Non-Linear Agent Orchestration

Les frameworks LLM agentiques basés sur l'orchestration par invites souffrent souvent de routage halluciné et d'exécution non reproductible. GraphBit est un framework orchestré par moteur qui définit les flux de travail de manière explicite et déterministe comme un graphe acyclique dirigé, assurant la reproductibilité et l'auditabilité avec un moteur basé sur Rust et une architecture mémoire à trois niveaux.

27