RESEARCHarXiv CS.AI·vor 14T
Anchor: Mitigating Artifact Drift in Agent Benchmark Generation
Anchor ist eine Aufgabengenerierungspipeline, die den "Artefakt-Drift" bei der Erstellung von Benchmarks für KI-Agenten adressiert. Sie formalisiert die Spezifikationen von Fachexperten in Optimierungsprogramme und erstellt konsistente Anweisungen, Umgebungen, Lösungen und Verifizierer für Geschäftsabläufe.
27