scientific reproduction — artigos, notícias e pesquisas de IA

RESEARCHarXiv CS.LG·26d atrás

Collider-Bench: Benchmarking AI Agents with Particle Physics Analysis Reproduction

Collider-Bench é um novo benchmark que avalia a capacidade de agentes LLM de reproduzir análises experimentais do LHC usando apenas dados públicos. O desafio reside em preencher lacunas de implementação, exigindo raciocínio físico e conhecimento de domínio.

particle physics benchmarking scientific reproduction AI agents