RESEARCH27
Collider-Bench: Benchmarking AI Agents with Particle Physics Analysis Reproduction
arXiv CS.LG·15 de maio de 2026
Collider-Bench é um novo benchmark que avalia a capacidade de agentes LLM de reproduzir análises experimentais do LHC usando apenas dados públicos. O desafio reside em preencher lacunas de implementação, exigindo raciocínio físico e conhecimento de domínio.
Ler original ↗