LABBench2: An Improved Benchmark for AI Systems Performing Biology Research
LABBench2 se presenta como un benchmark mejorado para evaluar sistemas de IA que realizan investigación en biología, evolucionando del LAB-Bench original. Su objetivo es medir capacidades del mundo real en tareas científicas útiles, yendo más allá del conocimiento y razonamiento básicos, y comprende casi 1.900 tareas.
