RESEARCHarXiv CS.AI·4/14/2026
LABBench2: An Improved Benchmark for AI Systems Performing Biology Research
LABBench2 wird als verbesserter Benchmark zur Bewertung von KI-Systemen vorgestellt, die Biologieforschung betreiben, und ist eine Weiterentwicklung des ursprünglichen LAB-Bench. Er zielt darauf ab, reale Fähigkeiten in nützlichen wissenschaftlichen Aufgaben zu messen, über grundlegendes Wissen und Schlussfolgerungen hinauszugehen, und umfasst fast 1.900 Aufgaben.
28