ARTICLE27
LABBench2 Benchmark Shows AI Biology Agents Struggle with Real-World Tasks
DEV.to AI·15 de abril de 2026
Investigadores presentaron LABBench2, un nuevo benchmark de 1.900 tareas para IA en biología, revelando que los modelos actuales rinden un 26-46% peor en tareas realistas. Esto expone una brecha crítica entre el conocimiento teórico de la IA y su capacidad para realizar trabajo científico práctico.
Leer original ↗