Verification

12 items

RESEARCHarXiv CS.LG·hace 20h

When Should an AI Scientist Stop? Verifiable Experiment Steering and Refusal for Autonomous Discovery

Este artículo presenta CARTOGRAPH, una capa de verificación para científicos de IA que combina la dirección de experimentos, el cierre de ambigüedades y la detección de inadecuaciones en bibliotecas. Demuestra un rendimiento superior a la proyección bruta en pruebas y logra identificar y revocar mecanismos farmacocinéticos fuera de la biblioteca, mejorando el descubrimiento autónomo.

experiment steering machine learning autonomous discovery Verification

ARTICLE↑ trendingHacker News (AI)·hace 14d

Agile V: Turning AI Agents into Verifiable Engineering Systems

Agile V propone un marco para transformar agentes de IA en sistemas de ingeniería robustos y verificables. Busca aplicar principios de ingeniería de software tradicionales al desarrollo de IA, asegurando fiabilidad y rendición de cuentas.

Reliability AI Systems Verification Software engineering

RESEARCHarXiv CS.AI·hace 5d

Toward Pre-Deployment Assurance for Enterprise AI Agents: Ontology-Grounded Simulation and Trust Certification

Este artículo propone un marco de verificación basado en ontologías para agentes de IA empresariales, abordando la brecha crítica en la garantía previa a la implementación. El marco incluye un sobre operativo del agente, un proceso de generación de escenarios a partir de ontologías y un Certificado de Confianza con atestaciones verificables por máquina para veredictos de despliegue.

security Trust Verification AI agents

RESEARCHarXiv CS.LG·22/4/2026

The Cost of Relaxation: Evaluating the Error in Convex Neural Network Verification

Esta investigación evalúa la divergencia en el peor de los casos entre las redes neuronales originales y sus relajaciones convexas, utilizadas en sistemas de verificación para mejorar el rendimiento a costa de la solidez. El estudio proporciona límites analíticos superiores e inferiores para el error, demostrando que crece exponencialmente con la profundidad de la red y linealmente con el radio de entrada.

robustness neural networks mathematical analysis Verification

DOCDEV.to AI·1/5/2026

Stop Your RAG Pipeline From Hallucinating: A 15-Line Fix published

Este artículo presenta una solución de 15 líneas para combatir alucinaciones en los pipelines RAG, incluso cuando las respuestas parecen basadas en documentos recuperados. Detalla un patrón de 'recuperar → generar → verificar' para detectar errores antes de que el agente de IA actúe.

hallucination AI quality RAG Verification

ARTICLEDEV.to AI·20/4/2026

agent-consistency – a Python consistency layer for multi-agent workflows

El autor señala problemas frecuentes en los flujos de trabajo de agentes de IA, como estados obsoletos y verificación de resultados incompleta. Presenta `agent-consistency`, un paquete Python con licencia MIT, para abordar estos problemas y solicita comentarios sobre su enfoque.

workflow automation consistency Verification Python

RESEARCHarXiv CS.LG·27/4/2026

Kernel Contracts: A Specification Language for ML Kernel Correctness Across Heterogeneous Silicon

Esta investigación propone un lenguaje de especificación para contratos de kernel de ML, con el fin de definir formalmente su comportamiento esperado en plataformas de silicio heterogéneas. Introduce una estructura de contrato de ocho partes y doce clases de contrato para arbitrar disputas que surjan de la precisión, el orden o otros modos de fallo.

machine learning Verification Software engineering

RESEARCHarXiv CS.LG·hace 27d

Vertex-Softmax: Tight Transformer Verification via Exact Softmax Optimization

El artículo introduce Vertex-Softmax, un nuevo método para la verificación certificada de la atención de transformadores mediante la optimización exacta de la función softmax. Demuestra que el óptimo exacto se alcanza en un vértice del cuadro de restricción, lo que produce un límite más ajustado.

Optimization machine learning Verification AI

RESEARCHarXiv CS.AI·hace 26d

Think Twice, Act Once: Verifier-Guided Action Selection For Embodied Agents

El artículo propone la Selección de Acciones Guiada por Verificador (VegAS), un marco de tiempo de prueba para mejorar la robustez de los agentes incorporados basados en MLLM. Utiliza un verificador generativo para identificar la opción de acción más fiable de un conjunto de candidatos.

robustness MLLM embodied agents Verification

ARTICLEDEV.to AI·hace 8d

Stop Building CI Pipelines For Humans. Your AI Agents Need A Harness.

El artículo argumenta que los pipelines de CI tradicionales, diseñados para la revisión humana, son inadecuados para los agentes de IA debido a su falta de intuición para posibles problemas. Propone un "arnés de verificación" para agentes de IA, que incluye infraestructura determinista y entornos de vista previa efímeros, para integrarlos de forma segura en los flujos de trabajo de desarrollo.

CI/CD DevOps Verification Software engineering

RESEARCHarXiv CS.LG·6/5/2026

Delay, Plateau, or Collapse: Evaluating the Impact of Systematic Verification Error on RLVR

Este artículo investiga el impacto de errores de verificación sistemáticos en el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR), un enfoque para mejorar las capacidades de razonamiento de los LLM. A diferencia de análisis anteriores que consideraban los errores aleatorios, este estudio demuestra que los errores sistemáticos pueden hacer que los modelos aprendan comportamientos consistentes no deseados. Los experimentos en tareas aritméticas muestran que los falsos negativos sistemáticos tienen efectos similares al ruido aleatorio, mientras que los falsos positivos sistemáticos pueden causar problemas mayores.

reinforcement learning AI Errors Verification large language models

DOCDEV.to AI·hace 16d

Top 5 Best Sites To Buy Google Voice Accounts In Days

El contenido describe métodos para obtener cuentas de Google Voice, incluyendo el registro oficial y la integración con Google Workspace. Explora la importancia de las cuentas verificadas y ofrece una guía paso a paso para su creación.

Google Workspace Verification Google Voice Account Acquisition