RESEARCH28
LABBench2: An Improved Benchmark for AI Systems Performing Biology Research
arXiv CS.AI·14 de abril de 2026
LABBench2 é apresentado como um benchmark aprimorado para avaliar sistemas de IA que realizam pesquisa em biologia, evoluindo do LAB-Bench original. Ele visa medir capacidades do mundo real em tarefas científicas úteis, indo além do conhecimento básico e raciocínio, e compreende quase 1.900 tarefas.
Ler original ↗