RESEARCH27
Collider-Bench: Benchmarking AI Agents with Particle Physics Analysis Reproduction
arXiv CS.LG·15. Mai 2026
Collider-Bench ist ein neuer Benchmark zur Bewertung der Fähigkeit von LLM-Agenten, experimentelle Analysen des LHC unter Verwendung öffentlicher Daten zu reproduzieren. Agenten müssen physikalisches Denken und Domänenwissen einsetzen, um fehlende Implementierungsdetails zu überbrücken.
Original lesen ↗