RESEARCH27
Anchor: Mitigating Artifact Drift in Agent Benchmark Generation
arXiv CS.AI·27 mai 2026
Anchor est un pipeline de génération de tâches qui vise à atténuer le "drift d'artefact" dans la création de benchmarks pour agents IA. Il formalise les spécifications d'experts en programmes d'optimisation, produisant conjointement des instructions, des environnements, des solutions et des vérificateurs cohérents pour les opérations commerciales.
Lire l'original ↗