heapsort
ARTICLE27

LABBench2 Benchmark Shows AI Biology Agents Struggle with Real-World Tasks

DEV.to AI·15. April 2026

Forscher haben LABBench2, einen neuen Benchmark mit 1.900 Aufgaben für KI in der Biologie, vorgestellt, der zeigt, dass aktuelle Modelle bei realistischen Aufgaben 26-46 % schlechter abschneiden als bei vereinfachten. Dies offenbart eine kritische Lücke zwischen dem theoretischen Verständnis der KI und ihrer Fähigkeit, praktische wissenschaftliche Arbeit zu leisten.

Original lesen