← heapsort-ai

Verification

12 items

RESEARCHarXiv CS.LG·vor 20Std

When Should an AI Scientist Stop? Verifiable Experiment Steering and Refusal for Autonomous Discovery

Dieser Artikel stellt CARTOGRAPH vor, eine Verifizierungsschicht für KI-Wissenschaftler, die Experimentsteuerung, Ambiguitätsauflösung und die Erkennung von Bibliotheksdefiziten kombiniert. Es übertrifft rohe Projektionsmethoden in Tests und identifiziert sowie widerruft erfolgreich pharmakokinetische Mechanismen außerhalb der Bibliothek, wodurch die autonome Entdeckung verbessert wird.

54
RESEARCHarXiv CS.AI·vor 5T

Toward Pre-Deployment Assurance for Enterprise AI Agents: Ontology-Grounded Simulation and Trust Certification

Dieses Papier schlägt ein ontologiebasiertes Verifizierungsframework für Unternehmens-KI-Agenten vor, das die kritische Lücke bei der Vorab-Bereitstellungsabsicherung schließt. Das Framework umfasst eine formale Beschreibung des Zertifizierungsbereichs, eine Pipeline zur Szenariengenerierung aus Ontologien und ein Vertrauenszertifikat mit maschinell überprüfbaren Bestätigungen für Bereitstellungsentscheidungen.

31
RESEARCHarXiv CS.LG·4/22/2026

The Cost of Relaxation: Evaluating the Error in Convex Neural Network Verification

Diese Forschung bewertet die Worst-Case-Divergenz zwischen ursprünglichen neuronalen Netzen und ihren konvexen Relaxationen, die in Verifikationssystemen zur Leistungssteigerung auf Kosten der Gültigkeit eingesetzt werden. Die Studie liefert analytische obere und untere Schranken für den Fehler, der exponentiell mit der Netzwerktiefe und linear mit dem Eingaberadius wächst.

27
RESEARCHarXiv CS.LG·4/27/2026

Kernel Contracts: A Specification Language for ML Kernel Correctness Across Heterogeneous Silicon

Diese Forschung schlägt eine Spezifikationssprache für ML-Kernel-Verträge vor, um deren erwartetes Verhalten auf heterogenen Siliziumplattformen formal zu definieren. Sie stellt eine achtteilige Vertragsstruktur und zwölf Vertragsklassen vor, um Streitigkeiten bezüglich Präzision, Reihenfolge oder anderer Fehlermodi zu schlichten.

27
ARTICLEDEV.to AI·vor 8T

Stop Building CI Pipelines For Humans. Your AI Agents Need A Harness.

Der Artikel argumentiert, dass traditionelle CI-Pipelines, die für menschliche Überprüfung konzipiert sind, für KI-Agenten aufgrund ihres Mangels an Intuition für potenzielle Probleme unzureichend sind. Er schlägt ein "Verifizierungs-Harness" für KI-Agenten vor, das deterministische Infrastruktur und ephemere Vorschauumgebungen umfasst, um sie sicher in Entwicklungsworkflows zu integrieren.

27
RESEARCHarXiv CS.LG·5/6/2026

Delay, Plateau, or Collapse: Evaluating the Impact of Systematic Verification Error on RLVR

Diese Arbeit untersucht die Auswirkungen systematischer Verifikationsfehler auf das Reinforcement Learning mit verifizierbaren Belohnungen (RLVR), eine Methode zur Verbesserung der Denkfähigkeiten großer Sprachmodelle. Im Gegensatz zu früheren Analysen, die Fehler als zufällig betrachteten, zeigt diese Studie, dass systematische Fehler Modelle dazu bringen können, unerwünschtes Verhalten zu lernen. Experimente an arithmetischen Aufgaben zeigen, dass systematische falsch-negative Ergebnisse ähnliche Effekte wie zufälliges Rauschen haben, während systematische falsch-positive Ergebnisse komplexere Auswirkungen haben können.

27