RESEARCHarXiv CS.AI·hace 13d
Anchor: Mitigating Artifact Drift in Agent Benchmark Generation
Anchor es un pipeline de generación de tareas que aborda el "artifact drift" en la creación de benchmarks para agentes de IA. Formaliza las especificaciones de expertos en programas de optimización, produciendo conjuntamente instrucciones, entornos, soluciones y verificadores consistentes para operaciones comerciales.
27