RESEARCH27

Collider-Bench: Benchmarking AI Agents with Particle Physics Analysis Reproduction

arXiv CS.LG·15 mai 2026

Collider-Bench est un nouveau benchmark évaluant la capacité des agents LLM à reproduire des analyses expérimentales du LHC à partir de données publiques. Les agents doivent combler les lacunes d'implémentation par le raisonnement physique et la connaissance du domaine.

particle physics benchmarking scientific reproduction AI agents LLM

Lire l'original ↗