ARTICLE27

LABBench2 Benchmark Shows AI Biology Agents Struggle with Real-World Tasks

DEV.to AI·15 avril 2026

Des chercheurs ont lancé LABBench2, un nouveau benchmark de 1 900 tâches pour l'IA en biologie, montrant que les modèles actuels sont 26 à 46 % moins performants sur des tâches réalistes. Cela révèle un écart critique entre la compréhension théorique de l'IA et sa capacité à effectuer un travail scientifique pratique.

LABBench2 AI limitations scientific AI agents AI in biology benchmarking AI

Lire l'original ↗