Reproducibility

9 items

ARTICLE↑ trendingReddit r/MachineLearning·15/4/2026

Failure to Reproduce Modern Paper Claims [D]

Un usuario intentó reproducir 7 afirmaciones de artículos modernos, descubriendo que 4 eran irreproducibles y 2 tenían problemas activos en Github. Esto le hace cuestionar el estado actual de la investigación, especialmente en la reproducibilidad.

AI research challenges academic integrity open science research quality

ARTICLEDEV.to AI·hace 2d

AgentUnit: Shipping AI like Software

AgentUnit aborda los desafíos de implementación y gestión de agentes de IA al introducir un estándar de empaquetado similar a los paquetes de software como rpm o deb. Proporciona disciplina en torno a la identidad, el contrato, la gobernanza y la reproducibilidad, transformando los agentes en unidades auditables y listas para producción.

deployment Packaging Reproducibility Software engineering

RESEARCH↑ trendingReddit r/MachineLearning·5/5/2026

Struggling to reproduce paper results before improving them — stuck below reported accuracy [R]

Un estudiante de doctorado en IA/visión por computadora lucha por reproducir la precisión reportada en un artículo publicado, obteniendo consistentemente un ~73% frente al ~77% de la línea de base del artículo. A pesar de revisiones exhaustivas e intentos de contactar a los autores, el estudiante se enfrenta a una brecha de reproducibilidad que dificulta su investigación posterior.

research PhD student machine learning computer vision

ARTICLE↑ trendingReddit r/MachineLearning·27/4/2026

Submitting to top ML Conferences without Sharing code [D]

Un investigador pregunta si debería dejar de compartir código en las presentaciones a conferencias de ML, como NIPS, debido a temores de robo de ideas, proponiendo publicarlo solo después de la aceptación. Menciona que los revisores a menudo esperan el código, pero que algunas presentaciones recientes sin él no fueron penalizadas.

research ethics academic publishing Reproducibility Intellectual Property

RESEARCHarXiv CS.AI·14/4/2026

Seven simple steps for log analysis in AI systems

Esta investigación propone una metodología estandarizada para el análisis de logs en sistemas de IA, abordando la falta actual de un enfoque común. Ofrece un marco con ejemplos de código usando la biblioteca Inspect Scout, guiando a los investigadores hacia un análisis riguroso y reproducible.

Model Evaluation Log Analysis Reproducibility AI Systems

RESEARCHDEV.to AI·7/5/2026

AI agent logs expose reproducibility gaps

Los registros de agentes de IA exponen brechas significativas de reproducibilidad, donde los agentes autónomos pueden pasar del éxito al fracaso con un margen notable, especialmente en tareas de navegación web. Investigaciones como el corpus SWE-chat revelan que menos de la mitad del código producido por agentes sobrevive en los commits de los usuarios, destacando una brecha entre las puntuaciones teóricas y la fiabilidad práctica.

Software Development Reliability Reproducibility Benchmarks

RESEARCHarXiv CS.AI·27/4/2026

An Artifact-based Agent Framework for Adaptive and Reproducible Medical Image Processing

Esta investigación presenta un marco de agente basado en artefactos para mejorar el procesamiento de imágenes médicas, centrándose en la adaptabilidad y la reproducibilidad. Introduce una capa semántica y un contrato de artefacto para permitir la interrogación estructurada del flujo de trabajo y la configuración condicionada por objetivos, según las condiciones específicas del conjunto de datos.

workflow automation machine learning Reproducibility Medical Imaging

RESEARCHarXiv CS.AI·27/4/2026

Read the Paper, Write the Code: Agentic Reproduction of Social-Science Results

Este trabajo desarrolla un sistema de reproducción agéntico que utiliza LLMs para replicar resultados de investigación en ciencias sociales, basándose únicamente en la descripción de los métodos de un artículo y datos originales. Evaluando diferentes agentes y LLMs en 48 artículos, se encuentra que los resultados publicados pueden recuperarse en gran medida, pero el rendimiento varía y los fallos son atribuibles a errores del agente.

scientific methods social science research LLM Agents Reproducibility

RESEARCHarXiv CS.AI·hace 24d

GraphBit: A Graph-based Agentic Framework for Non-Linear Agent Orchestration

Los marcos de LLM agénticos que dependen de la orquestación por prompts a menudo sufren de enrutamiento alucinado y ejecución no reproducible. GraphBit es un marco orquestado por un motor que define los flujos de trabajo de forma explícita y determinista como un grafo acíclico dirigido, garantizando la reproducibilidad y la auditabilidad con un motor basado en Rust y una arquitectura de memoria de tres niveles.

workflow automation Reproducibility LLM Frameworks Graph Orchestration