heapsort
RESEARCH27

Stop Automating Peer Review Without Rigorous Evaluation

arXiv CS.AI·6 mai 2026

Cet article déconseille l'utilisation des systèmes d'IA actuels pour l'évaluation par les pairs, identifiant deux problèmes critiques: un "effet de ruche" qui réduit la diversité des perspectives et la facilité de manipulation des scores d'évaluation par l'IA via la réécriture de l'article. Une comparaison empirique des évaluations humaines et générées par l'IA montre que les évaluateurs IA sont sensibles aux changements stylistiques plutôt qu'au mérite scientifique, soulignant la nécessité de la non-manipulabilité et de la diversité pour l'automatisation.

Lire l'original