RESEARCHarXiv CS.LG·26d atrás
Collider-Bench: Benchmarking AI Agents with Particle Physics Analysis Reproduction
Collider-Bench é um novo benchmark que avalia a capacidade de agentes LLM de reproduzir análises experimentais do LHC usando apenas dados públicos. O desafio reside em preencher lacunas de implementação, exigindo raciocínio físico e conhecimento de domínio.
27