RESEARCH27
Collider-Bench: Benchmarking AI Agents with Particle Physics Analysis Reproduction
arXiv CS.LG·15 de mayo de 2026
Collider-Bench presenta un nuevo benchmark para evaluar la capacidad de los agentes LLM de reproducir análisis experimentales del LHC con recursos públicos. Los agentes deben usar razonamiento físico y conocimiento de dominio para abordar detalles de implementación faltantes.
Leer original ↗