heapsort
RESEARCH28

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

arXiv CS.AI·14 de abril de 2026

LABBench2 é apresentado como um benchmark aprimorado para avaliar sistemas de IA que realizam pesquisa em biologia, evoluindo do LAB-Bench original. Ele visa medir capacidades do mundo real em tarefas científicas úteis, indo além do conhecimento básico e raciocínio, e compreende quase 1.900 tarefas.

Ler original