ARTICLE27

LABBench2 Benchmark Shows AI Biology Agents Struggle with Real-World Tasks

DEV.to AI·15. April 2026

Forscher haben LABBench2, einen neuen Benchmark mit 1.900 Aufgaben für KI in der Biologie, vorgestellt, der zeigt, dass aktuelle Modelle bei realistischen Aufgaben 26-46 % schlechter abschneiden als bei vereinfachten. Dies offenbart eine kritische Lücke zwischen dem theoretischen Verständnis der KI und ihrer Fähigkeit, praktische wissenschaftliche Arbeit zu leisten.

LABBench2 AI limitations scientific AI agents AI in biology benchmarking AI

Original lesen ↗