LABBench2: An Improved Benchmark for AI Systems Performing Biology Research
LABBench2 est présenté comme un benchmark amélioré pour évaluer les systèmes d'IA effectuant de la recherche en biologie, évoluant du LAB-Bench original. Il vise à mesurer les capacités du monde réel dans des tâches scientifiques utiles, allant au-delà des connaissances et du raisonnement de base, et comprend près de 1 900 tâches.
