RESEARCH27

Collider-Bench: Benchmarking AI Agents with Particle Physics Analysis Reproduction

arXiv CS.LG·15. Mai 2026

Collider-Bench ist ein neuer Benchmark zur Bewertung der Fähigkeit von LLM-Agenten, experimentelle Analysen des LHC unter Verwendung öffentlicher Daten zu reproduzieren. Agenten müssen physikalisches Denken und Domänenwissen einsetzen, um fehlende Implementierungsdetails zu überbrücken.

particle physics benchmarking scientific reproduction AI agents LLM

Original lesen ↗