Verification

12 items

RESEARCHarXiv CS.LG·il y a 21h

When Should an AI Scientist Stop? Verifiable Experiment Steering and Refusal for Autonomous Discovery

Cet article présente CARTOGRAPH, une couche de vérification pour les scientifiques en IA qui intègre la direction d'expériences, la clôture d'ambiguïtés et la détection d'insuffisances de bibliothèque. Il surpasse les méthodes de projection brutes lors des tests et identifie puis révoque avec succès les mécanismes pharmacocinétiques hors bibliothèque, améliorant ainsi la découverte autonome.

experiment steering machine learning autonomous discovery Verification

ARTICLE↑ trendingHacker News (AI)·il y a 14j

Agile V: Turning AI Agents into Verifiable Engineering Systems

Agile V propose un cadre pour transformer les agents d'IA en systèmes d'ingénierie robustes et vérifiables. Il vise à appliquer les principes d'ingénierie logicielle traditionnels au développement de l'IA, garantissant fiabilité et responsabilité.

Reliability AI Systems Verification Software Engineering

RESEARCHarXiv CS.AI·il y a 5j

Toward Pre-Deployment Assurance for Enterprise AI Agents: Ontology-Grounded Simulation and Trust Certification

Cet article propose un cadre de vérification basé sur l'ontologie pour les agents d'IA d'entreprise, comblant le fossé critique en matière d'assurance avant le déploiement. Le cadre comprend une enveloppe opérationnelle de l'agent, un pipeline de génération de scénarios basé sur l'ontologie et un certificat de confiance avec des attestations vérifiables par machine pour les verdicts de déploiement.

security Trust Verification AI agents

RESEARCHarXiv CS.LG·22/04/2026

The Cost of Relaxation: Evaluating the Error in Convex Neural Network Verification

Cette recherche évalue la divergence dans le pire des cas entre les réseaux neuronaux originaux et leurs relaxations convexes, utilisées dans les systèmes de vérification pour améliorer les performances au détriment de la complétude. L'étude fournit des bornes analytiques supérieures et inférieures pour l'erreur, montrant qu'elle croît exponentiellement avec la profondeur du réseau et linéairement avec le rayon de l'entrée.

robustness neural networks mathematical analysis Verification

DOCDEV.to AI·01/05/2026

Stop Your RAG Pipeline From Hallucinating: A 15-Line Fix published

Cet article propose une solution de 15 lignes pour lutter contre les hallucinations dans les pipelines RAG, même lorsque les réponses semblent fondées sur des documents récupérés. Il détaille un modèle « récupérer → générer → vérifier » pour détecter les erreurs avant que l'agent IA n'agisse.

hallucination AI quality RAG Verification

ARTICLEDEV.to AI·20/04/2026

agent-consistency – a Python consistency layer for multi-agent workflows

L'auteur met en lumière des problèmes courants dans les workflows d'agents IA, tels que les états obsolètes et la vérification des résultats. Il présente `agent-consistency`, un package Python sous licence MIT, pour y remédier et sollicite des retours sur cette approche.

workflow automation consistency Verification Python

RESEARCHarXiv CS.LG·27/04/2026

Kernel Contracts: A Specification Language for ML Kernel Correctness Across Heterogeneous Silicon

Cette recherche propose un langage de spécification pour les contrats de noyau ML afin de définir formellement leur comportement attendu sur des plateformes de silicium hétérogènes. Il introduit une structure de contrat en huit parties et douze classes de contrat pour arbitrer les litiges résultant de la précision, de l'ordonnancement ou d'autres modes de défaillance.

machine learning Verification Software Engineering

RESEARCHarXiv CS.LG·il y a 27j

Vertex-Softmax: Tight Transformer Verification via Exact Softmax Optimization

L'article présente Vertex-Softmax, une nouvelle méthode pour la vérification certifiée de l'attention des transformateurs via l'optimisation exacte de la fonction softmax. Il prouve que l'optimum exact est atteint à un sommet de la boîte de contrainte, fournissant une borne plus stricte.

Optimization machine learning Verification AI

RESEARCHarXiv CS.AI·il y a 26j

Think Twice, Act Once: Verifier-Guided Action Selection For Embodied Agents

Cet article propose la Sélection d'Actions Guidée par Vérificateur (VegAS), un cadre de temps de test pour améliorer la robustesse des agents incarnés basés sur les MLLM. Il utilise un vérificateur génératif pour identifier le choix d'action le plus fiable parmi un ensemble de candidats.

robustness MLLM embodied agents Verification

ARTICLEDEV.to AI·il y a 8j

Stop Building CI Pipelines For Humans. Your AI Agents Need A Harness.

L'article soutient que les pipelines CI traditionnels, conçus pour la révision humaine, sont inadéquats pour les agents d'IA en raison de leur manque d'intuition pour les problèmes potentiels. Il propose un "harnais de vérification" pour les agents d'IA, comprenant une infrastructure déterministe et des environnements de prévisualisation éphémères, pour les intégrer en toute sécurité dans les flux de travail de développement.

CI/CD DevOps Verification Software Engineering

RESEARCHarXiv CS.LG·06/05/2026

Delay, Plateau, or Collapse: Evaluating the Impact of Systematic Verification Error on RLVR

Cet article étudie l'impact des erreurs de vérification systématiques sur l'apprentissage par renforcement avec récompenses vérifiables (RLVR), une approche visant à améliorer les capacités de raisonnement des grands modèles de langage. Contrairement aux analyses précédentes qui traitaient les erreurs comme aléatoires, cette étude montre que des erreurs systématiques peuvent amener les modèles à apprendre des comportements indésirables. Des expériences sur des tâches arithmétiques révèlent que les faux négatifs systématiques ont des effets similaires au bruit aléatoire, tandis que les faux positifs systématiques peuvent avoir des impacts plus graves.

reinforcement learning AI Errors Verification large language models

DOCDEV.to AI·il y a 16j

Top 5 Best Sites To Buy Google Voice Accounts In Days

Le contenu décrit les méthodes d'acquisition de comptes Google Voice, y compris l'inscription officielle et l'intégration avec Google Workspace. Il explore l'importance des comptes vérifiés et fournit un guide étape par étape pour leur création.

Google Workspace Verification Google Voice Account Acquisition