← heapsort-ai

AI in science

5 items

RESEARCHarXiv CS.AI·14/04/2026

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

LABBench2 est présenté comme un benchmark amélioré pour évaluer les systèmes d'IA effectuant de la recherche en biologie, évoluant du LAB-Bench original. Il vise à mesurer les capacités du monde réel dans des tâches scientifiques utiles, allant au-delà des connaissances et du raisonnement de base, et comprend près de 1 900 tâches.

28
RESEARCHarXiv CS.AI·27/04/2026

Sound Agentic Science Requires Adversarial Experiments

Les agents basés sur les LLM sont rapidement adoptés pour l'analyse de données scientifiques, mais ils risquent de produire des analyses plausibles optimisées pour des résultats positifs et publiables. Ce document propose que les affirmations non expérimentales produites avec l'aide d'agents soient évaluées selon un cadre de falsification pour garantir la rigueur scientifique.

27