RESEARCH27

Collider-Bench: Benchmarking AI Agents with Particle Physics Analysis Reproduction

arXiv CS.LG·15 de mayo de 2026

Collider-Bench presenta un nuevo benchmark para evaluar la capacidad de los agentes LLM de reproducir análisis experimentales del LHC con recursos públicos. Los agentes deben usar razonamiento físico y conocimiento de dominio para abordar detalles de implementación faltantes.

particle physics benchmarking scientific reproduction AI agents LLM

Leer original ↗