← heapsort-ai

Verification

12 items

RESEARCHarXiv CS.LG·hace 20h

When Should an AI Scientist Stop? Verifiable Experiment Steering and Refusal for Autonomous Discovery

Este artículo presenta CARTOGRAPH, una capa de verificación para científicos de IA que combina la dirección de experimentos, el cierre de ambigüedades y la detección de inadecuaciones en bibliotecas. Demuestra un rendimiento superior a la proyección bruta en pruebas y logra identificar y revocar mecanismos farmacocinéticos fuera de la biblioteca, mejorando el descubrimiento autónomo.

54
RESEARCHarXiv CS.AI·hace 5d

Toward Pre-Deployment Assurance for Enterprise AI Agents: Ontology-Grounded Simulation and Trust Certification

Este artículo propone un marco de verificación basado en ontologías para agentes de IA empresariales, abordando la brecha crítica en la garantía previa a la implementación. El marco incluye un sobre operativo del agente, un proceso de generación de escenarios a partir de ontologías y un Certificado de Confianza con atestaciones verificables por máquina para veredictos de despliegue.

31
RESEARCHarXiv CS.LG·22/4/2026

The Cost of Relaxation: Evaluating the Error in Convex Neural Network Verification

Esta investigación evalúa la divergencia en el peor de los casos entre las redes neuronales originales y sus relajaciones convexas, utilizadas en sistemas de verificación para mejorar el rendimiento a costa de la solidez. El estudio proporciona límites analíticos superiores e inferiores para el error, demostrando que crece exponencialmente con la profundidad de la red y linealmente con el radio de entrada.

27
RESEARCHarXiv CS.LG·27/4/2026

Kernel Contracts: A Specification Language for ML Kernel Correctness Across Heterogeneous Silicon

Esta investigación propone un lenguaje de especificación para contratos de kernel de ML, con el fin de definir formalmente su comportamiento esperado en plataformas de silicio heterogéneas. Introduce una estructura de contrato de ocho partes y doce clases de contrato para arbitrar disputas que surjan de la precisión, el orden o otros modos de fallo.

27
ARTICLEDEV.to AI·hace 8d

Stop Building CI Pipelines For Humans. Your AI Agents Need A Harness.

El artículo argumenta que los pipelines de CI tradicionales, diseñados para la revisión humana, son inadecuados para los agentes de IA debido a su falta de intuición para posibles problemas. Propone un "arnés de verificación" para agentes de IA, que incluye infraestructura determinista y entornos de vista previa efímeros, para integrarlos de forma segura en los flujos de trabajo de desarrollo.

27
RESEARCHarXiv CS.LG·6/5/2026

Delay, Plateau, or Collapse: Evaluating the Impact of Systematic Verification Error on RLVR

Este artículo investiga el impacto de errores de verificación sistemáticos en el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR), un enfoque para mejorar las capacidades de razonamiento de los LLM. A diferencia de análisis anteriores que consideraban los errores aleatorios, este estudio demuestra que los errores sistemáticos pueden hacer que los modelos aprendan comportamientos consistentes no deseados. Los experimentos en tareas aritméticas muestran que los falsos negativos sistemáticos tienen efectos similares al ruido aleatorio, mientras que los falsos positivos sistemáticos pueden causar problemas mayores.

27