benchmarking AI — KI-Artikel, Nachrichten & Forschung

ARTICLEDEV.to AI·4/15/2026

LABBench2 Benchmark Shows AI Biology Agents Struggle with Real-World Tasks

Forscher haben LABBench2, einen neuen Benchmark mit 1.900 Aufgaben für KI in der Biologie, vorgestellt, der zeigt, dass aktuelle Modelle bei realistischen Aufgaben 26-46 % schlechter abschneiden als bei vereinfachten. Dies offenbart eine kritische Lücke zwischen dem theoretischen Verständnis der KI und ihrer Fähigkeit, praktische wissenschaftliche Arbeit zu leisten.

LABBench2 AI limitations scientific AI agents AI in biology