LABBench2 — artigos, notícias e pesquisas de IA

ARTICLEDEV.to AI·15/04/2026

LABBench2 Benchmark Shows AI Biology Agents Struggle with Real-World Tasks

Pesquisadores lançaram o LABBench2, um benchmark de 1.900 tarefas para IA em biologia, revelando que os modelos atuais têm um desempenho 26-46% pior em tarefas realistas. Isso expõe uma lacuna crítica entre o conhecimento teórico da IA e sua capacidade de realizar trabalho científico prático.

LABBench2 AI limitations scientific AI agents AI in biology