RESEARCH28
LABBench2: An Improved Benchmark for AI Systems Performing Biology Research
arXiv CS.AI·14 avril 2026
LABBench2 est présenté comme un benchmark amélioré pour évaluer les systèmes d'IA effectuant de la recherche en biologie, évoluant du LAB-Bench original. Il vise à mesurer les capacités du monde réel dans des tâches scientifiques utiles, allant au-delà des connaissances et du raisonnement de base, et comprend près de 1 900 tâches.
Lire l'original ↗