← heapsort-ai

Verification

12 items

RESEARCHarXiv CS.LG·il y a 21h

When Should an AI Scientist Stop? Verifiable Experiment Steering and Refusal for Autonomous Discovery

Cet article présente CARTOGRAPH, une couche de vérification pour les scientifiques en IA qui intègre la direction d'expériences, la clôture d'ambiguïtés et la détection d'insuffisances de bibliothèque. Il surpasse les méthodes de projection brutes lors des tests et identifie puis révoque avec succès les mécanismes pharmacocinétiques hors bibliothèque, améliorant ainsi la découverte autonome.

46
RESEARCHarXiv CS.AI·il y a 5j

Toward Pre-Deployment Assurance for Enterprise AI Agents: Ontology-Grounded Simulation and Trust Certification

Cet article propose un cadre de vérification basé sur l'ontologie pour les agents d'IA d'entreprise, comblant le fossé critique en matière d'assurance avant le déploiement. Le cadre comprend une enveloppe opérationnelle de l'agent, un pipeline de génération de scénarios basé sur l'ontologie et un certificat de confiance avec des attestations vérifiables par machine pour les verdicts de déploiement.

28
RESEARCHarXiv CS.LG·22/04/2026

The Cost of Relaxation: Evaluating the Error in Convex Neural Network Verification

Cette recherche évalue la divergence dans le pire des cas entre les réseaux neuronaux originaux et leurs relaxations convexes, utilisées dans les systèmes de vérification pour améliorer les performances au détriment de la complétude. L'étude fournit des bornes analytiques supérieures et inférieures pour l'erreur, montrant qu'elle croît exponentiellement avec la profondeur du réseau et linéairement avec le rayon de l'entrée.

27
RESEARCHarXiv CS.LG·27/04/2026

Kernel Contracts: A Specification Language for ML Kernel Correctness Across Heterogeneous Silicon

Cette recherche propose un langage de spécification pour les contrats de noyau ML afin de définir formellement leur comportement attendu sur des plateformes de silicium hétérogènes. Il introduit une structure de contrat en huit parties et douze classes de contrat pour arbitrer les litiges résultant de la précision, de l'ordonnancement ou d'autres modes de défaillance.

27
ARTICLEDEV.to AI·il y a 8j

Stop Building CI Pipelines For Humans. Your AI Agents Need A Harness.

L'article soutient que les pipelines CI traditionnels, conçus pour la révision humaine, sont inadéquats pour les agents d'IA en raison de leur manque d'intuition pour les problèmes potentiels. Il propose un "harnais de vérification" pour les agents d'IA, comprenant une infrastructure déterministe et des environnements de prévisualisation éphémères, pour les intégrer en toute sécurité dans les flux de travail de développement.

27
RESEARCHarXiv CS.LG·06/05/2026

Delay, Plateau, or Collapse: Evaluating the Impact of Systematic Verification Error on RLVR

Cet article étudie l'impact des erreurs de vérification systématiques sur l'apprentissage par renforcement avec récompenses vérifiables (RLVR), une approche visant à améliorer les capacités de raisonnement des grands modèles de langage. Contrairement aux analyses précédentes qui traitaient les erreurs comme aléatoires, cette étude montre que des erreurs systématiques peuvent amener les modèles à apprendre des comportements indésirables. Des expériences sur des tâches arithmétiques révèlent que les faux négatifs systématiques ont des effets similaires au bruit aléatoire, tandis que les faux positifs systématiques peuvent avoir des impacts plus graves.

27