heapsort
ARTICLE27

LABBench2 Benchmark Shows AI Biology Agents Struggle with Real-World Tasks

DEV.to AI·15 de abril de 2026

Investigadores presentaron LABBench2, un nuevo benchmark de 1.900 tareas para IA en biología, revelando que los modelos actuales rinden un 26-46% peor en tareas realistas. Esto expone una brecha crítica entre el conocimiento teórico de la IA y su capacidad para realizar trabajo científico práctico.

Leer original