RESEARCH27

Collider-Bench: Benchmarking AI Agents with Particle Physics Analysis Reproduction

arXiv CS.LG·15 de maio de 2026

Collider-Bench é um novo benchmark que avalia a capacidade de agentes LLM de reproduzir análises experimentais do LHC usando apenas dados públicos. O desafio reside em preencher lacunas de implementação, exigindo raciocínio físico e conhecimento de domínio.

particle physics benchmarking scientific reproduction AI agents LLM

Ler original ↗