RESEARCHarXiv CS.AI·14/04/2026
LABBench2: An Improved Benchmark for AI Systems Performing Biology Research
LABBench2 é apresentado como um benchmark aprimorado para avaliar sistemas de IA que realizam pesquisa em biologia, evoluindo do LAB-Bench original. Ele visa medir capacidades do mundo real em tarefas científicas úteis, indo além do conhecimento básico e raciocínio, e compreende quase 1.900 tarefas.
28