← heapsort-ai

benchmarking AI

1 items

ARTICLEDEV.to AI·4/15/2026

LABBench2 Benchmark Shows AI Biology Agents Struggle with Real-World Tasks

Forscher haben LABBench2, einen neuen Benchmark mit 1.900 Aufgaben für KI in der Biologie, vorgestellt, der zeigt, dass aktuelle Modelle bei realistischen Aufgaben 26-46 % schlechter abschneiden als bei vereinfachten. Dies offenbart eine kritische Lücke zwischen dem theoretischen Verständnis der KI und ihrer Fähigkeit, praktische wissenschaftliche Arbeit zu leisten.

27