RESEARCHarXiv CS.AI·il y a 13j
Anchor: Mitigating Artifact Drift in Agent Benchmark Generation
Anchor est un pipeline de génération de tâches qui vise à atténuer le "drift d'artefact" dans la création de benchmarks pour agents IA. Il formalise les spécifications d'experts en programmes d'optimisation, produisant conjointement des instructions, des environnements, des solutions et des vérificateurs cohérents pour les opérations commerciales.
27