RESEARCH28
LABBench2: An Improved Benchmark for AI Systems Performing Biology Research
arXiv CS.AI·14 de abril de 2026
LABBench2 se presenta como un benchmark mejorado para evaluar sistemas de IA que realizan investigación en biología, evolucionando del LAB-Bench original. Su objetivo es medir capacidades del mundo real en tareas científicas útiles, yendo más allá del conocimiento y razonamiento básicos, y comprende casi 1.900 tareas.
Leer original ↗