ARTICLE27
LABBench2 Benchmark Shows AI Biology Agents Struggle with Real-World Tasks
DEV.to AI·15 avril 2026
Des chercheurs ont lancé LABBench2, un nouveau benchmark de 1 900 tâches pour l'IA en biologie, montrant que les modèles actuels sont 26 à 46 % moins performants sur des tâches réalistes. Cela révèle un écart critique entre la compréhension théorique de l'IA et sa capacité à effectuer un travail scientifique pratique.
Lire l'original ↗