ARTICLE27
LABBench2 Benchmark Shows AI Biology Agents Struggle with Real-World Tasks
DEV.to AI·15. April 2026
Forscher haben LABBench2, einen neuen Benchmark mit 1.900 Aufgaben für KI in der Biologie, vorgestellt, der zeigt, dass aktuelle Modelle bei realistischen Aufgaben 26-46 % schlechter abschneiden als bei vereinfachten. Dies offenbart eine kritische Lücke zwischen dem theoretischen Verständnis der KI und ihrer Fähigkeit, praktische wissenschaftliche Arbeit zu leisten.
Original lesen ↗