← heapsort-ai

Reproducibility

9 items

ARTICLEDEV.to AI·hace 2d

AgentUnit: Shipping AI like Software

AgentUnit aborda los desafíos de implementación y gestión de agentes de IA al introducir un estándar de empaquetado similar a los paquetes de software como rpm o deb. Proporciona disciplina en torno a la identidad, el contrato, la gobernanza y la reproducibilidad, transformando los agentes en unidades auditables y listas para producción.

36
RESEARCH↑ trendingReddit r/MachineLearning·5/5/2026

Struggling to reproduce paper results before improving them — stuck below reported accuracy [R]

Un estudiante de doctorado en IA/visión por computadora lucha por reproducir la precisión reportada en un artículo publicado, obteniendo consistentemente un ~73% frente al ~77% de la línea de base del artículo. A pesar de revisiones exhaustivas e intentos de contactar a los autores, el estudiante se enfrenta a una brecha de reproducibilidad que dificulta su investigación posterior.

36
ARTICLE↑ trendingReddit r/MachineLearning·27/4/2026

Submitting to top ML Conferences without Sharing code [D]

Un investigador pregunta si debería dejar de compartir código en las presentaciones a conferencias de ML, como NIPS, debido a temores de robo de ideas, proponiendo publicarlo solo después de la aceptación. Menciona que los revisores a menudo esperan el código, pero que algunas presentaciones recientes sin él no fueron penalizadas.

35
RESEARCHDEV.to AI·7/5/2026

AI agent logs expose reproducibility gaps

Los registros de agentes de IA exponen brechas significativas de reproducibilidad, donde los agentes autónomos pueden pasar del éxito al fracaso con un margen notable, especialmente en tareas de navegación web. Investigaciones como el corpus SWE-chat revelan que menos de la mitad del código producido por agentes sobrevive en los commits de los usuarios, destacando una brecha entre las puntuaciones teóricas y la fiabilidad práctica.

27
RESEARCHarXiv CS.AI·27/4/2026

An Artifact-based Agent Framework for Adaptive and Reproducible Medical Image Processing

Esta investigación presenta un marco de agente basado en artefactos para mejorar el procesamiento de imágenes médicas, centrándose en la adaptabilidad y la reproducibilidad. Introduce una capa semántica y un contrato de artefacto para permitir la interrogación estructurada del flujo de trabajo y la configuración condicionada por objetivos, según las condiciones específicas del conjunto de datos.

27
RESEARCHarXiv CS.AI·27/4/2026

Read the Paper, Write the Code: Agentic Reproduction of Social-Science Results

Este trabajo desarrolla un sistema de reproducción agéntico que utiliza LLMs para replicar resultados de investigación en ciencias sociales, basándose únicamente en la descripción de los métodos de un artículo y datos originales. Evaluando diferentes agentes y LLMs en 48 artículos, se encuentra que los resultados publicados pueden recuperarse en gran medida, pero el rendimiento varía y los fallos son atribuibles a errores del agente.

27
RESEARCHarXiv CS.AI·hace 24d

GraphBit: A Graph-based Agentic Framework for Non-Linear Agent Orchestration

Los marcos de LLM agénticos que dependen de la orquestación por prompts a menudo sufren de enrutamiento alucinado y ejecución no reproducible. GraphBit es un marco orquestado por un motor que define los flujos de trabajo de forma explícita y determinista como un grafo acíclico dirigido, garantizando la reproducibilidad y la auditabilidad con un motor basado en Rust y una arquitectura de memoria de tres niveles.

27