RESEARCHarXiv CS.LG·il y a 26j
Collider-Bench: Benchmarking AI Agents with Particle Physics Analysis Reproduction
Collider-Bench est un nouveau benchmark évaluant la capacité des agents LLM à reproduire des analyses expérimentales du LHC à partir de données publiques. Les agents doivent combler les lacunes d'implémentation par le raisonnement physique et la connaissance du domaine.
27