RESEARCHarXiv CS.AI·13d atrás
Anchor: Mitigating Artifact Drift in Agent Benchmark Generation
Anchor é uma pipeline de geração de tarefas que aborda o problema de "artifact drift" na criação de benchmarks para agentes de IA. Ele formaliza as especificações de especialistas em programas de otimização, produzindo instruções, ambientes, soluções e verificadores consistentes para operações de negócios.
27