RESEARCH27
Anchor: Mitigating Artifact Drift in Agent Benchmark Generation
arXiv CS.AI·27 de mayo de 2026
Anchor es un pipeline de generación de tareas que aborda el "artifact drift" en la creación de benchmarks para agentes de IA. Formaliza las especificaciones de expertos en programas de optimización, produciendo conjuntamente instrucciones, entornos, soluciones y verificadores consistentes para operaciones comerciales.
Leer original ↗