RESEARCHarXiv CS.LG·vor 26T
Collider-Bench: Benchmarking AI Agents with Particle Physics Analysis Reproduction
Collider-Bench ist ein neuer Benchmark zur Bewertung der Fähigkeit von LLM-Agenten, experimentelle Analysen des LHC unter Verwendung öffentlicher Daten zu reproduzieren. Agenten müssen physikalisches Denken und Domänenwissen einsetzen, um fehlende Implementierungsdetails zu überbrücken.
27