RESEARCH27
Stop Automating Peer Review Without Rigorous Evaluation
arXiv CS.AI·6 mai 2026
Cet article déconseille l'utilisation des systèmes d'IA actuels pour l'évaluation par les pairs, identifiant deux problèmes critiques: un "effet de ruche" qui réduit la diversité des perspectives et la facilité de manipulation des scores d'évaluation par l'IA via la réécriture de l'article. Une comparaison empirique des évaluations humaines et générées par l'IA montre que les évaluateurs IA sont sensibles aux changements stylistiques plutôt qu'au mérite scientifique, soulignant la nécessité de la non-manipulabilité et de la diversité pour l'automatisation.
Lire l'original ↗