RESEARCHarXiv CS.LG·hace 26d
Collider-Bench: Benchmarking AI Agents with Particle Physics Analysis Reproduction
Collider-Bench presenta un nuevo benchmark para evaluar la capacidad de los agentes LLM de reproducir análisis experimentales del LHC con recursos públicos. Los agentes deben usar razonamiento físico y conocimiento de dominio para abordar detalles de implementación faltantes.
27