heapsort
RESEARCH28

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

arXiv CS.AI·14 de abril de 2026

LABBench2 se presenta como un benchmark mejorado para evaluar sistemas de IA que realizan investigación en biología, evolucionando del LAB-Bench original. Su objetivo es medir capacidades del mundo real en tareas científicas útiles, yendo más allá del conocimiento y razonamiento básicos, y comprende casi 1.900 tareas.

Leer original