RESEARCH46

A case study of evaluating AI agents on a neuroscience data-to-discovery pipeline

arXiv CS.AI·9 juin 2026

Cette recherche évalue empiriquement des agents de codage d'IA à usage général sur un pipeline de découverte de données en neurosciences, évaluant leur capacité à automatiser des tâches scientifiques complexes. Elle constate que les agents peuvent résoudre des étapes individuelles du pipeline mais rencontrent des difficultés avec le jugement scientifique en l'absence de critères d'itération prédéfinis.

Benchmarking Neuroscience automation AI agents scientific research

Lire l'original ↗