heapsort
RESEARCH28

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

arXiv CS.AI·14 avril 2026

LABBench2 est présenté comme un benchmark amélioré pour évaluer les systèmes d'IA effectuant de la recherche en biologie, évoluant du LAB-Bench original. Il vise à mesurer les capacités du monde réel dans des tâches scientifiques utiles, allant au-delà des connaissances et du raisonnement de base, et comprend près de 1 900 tâches.

Lire l'original