← heapsort-ai

AI in science

5 items

RESEARCHarXiv CS.AI·4/14/2026

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

LABBench2 wird als verbesserter Benchmark zur Bewertung von KI-Systemen vorgestellt, die Biologieforschung betreiben, und ist eine Weiterentwicklung des ursprünglichen LAB-Bench. Er zielt darauf ab, reale Fähigkeiten in nützlichen wissenschaftlichen Aufgaben zu messen, über grundlegendes Wissen und Schlussfolgerungen hinauszugehen, und umfasst fast 1.900 Aufgaben.

28
RESEARCHarXiv CS.AI·4/27/2026

Sound Agentic Science Requires Adversarial Experiments

LLM-basierte Agenten werden schnell in der wissenschaftlichen Datenanalyse eingesetzt, bergen jedoch das Risiko, plausible Analysen zu erstellen, die auf publizierbare positive Ergebnisse optimiert sind. Die Autoren schlagen vor, dass nicht-experimentelle Behauptungen, die mit Agentenunterstützung erstellt wurden, unter dem Prinzip der Falsifikation bewertet werden sollten, um die wissenschaftliche Genauigkeit zu gewährleisten.

27