← heapsort-ai

research integrity

7 items

ARTICLE↑ trendingReddit r/MachineLearning·06/05/2026

Stop letting LLMs edit your .bib [D]

L'auteur exprime son étonnement face à la fréquence des citations hallucinées par les LLM dans les articles universitaires, entraînant des listes d'auteurs incorrectes. Il s'interroge sur le manque de respect pour la recherche et la nécessité de sanctions plus sévères, demandant si d'autres rencontrent le même problème.

42
CASE↑ trendingReddit r/MachineLearning·08/04/2026

[D] Dealing with an unprofessional reviewer using fake references and personal attacks in ICML26

Um autor descreve enfrentar um avaliador extremamente antiprofissional no ICML 2026, que utilizou referências falsas, ataques pessoais e argumentos sem sentido para desqualificar seu trabalho. O autor busca orientação sobre como intervir contra um avaliador que emprega citações fraudulentas e ataques ad hominem no processo de revisão por pares.

35
ARTICLEDEV.to AI·12/04/2026

The Benchmark Is Not the Behavior

Une équipe de l'UC Berkeley a démontré comment exploiter des failles dans huit benchmarks d'agents IA en manipulant les méthodes d'évaluation. Cela soulève de sérieuses questions sur l'intégrité de l'évaluation de l'IA, car les benchmarks reposent sur un "système d'honneur" vulnérable.

28
RESEARCHarXiv CS.AI·27/04/2026

Sound Agentic Science Requires Adversarial Experiments

Les agents basés sur les LLM sont rapidement adoptés pour l'analyse de données scientifiques, mais ils risquent de produire des analyses plausibles optimisées pour des résultats positifs et publiables. Ce document propose que les affirmations non expérimentales produites avec l'aide d'agents soient évaluées selon un cadre de falsification pour garantir la rigueur scientifique.

27
RESEARCHarXiv CS.AI·06/05/2026

Stop Automating Peer Review Without Rigorous Evaluation

Cet article déconseille l'utilisation des systèmes d'IA actuels pour l'évaluation par les pairs, identifiant deux problèmes critiques: un "effet de ruche" qui réduit la diversité des perspectives et la facilité de manipulation des scores d'évaluation par l'IA via la réécriture de l'article. Une comparaison empirique des évaluations humaines et générées par l'IA montre que les évaluateurs IA sont sensibles aux changements stylistiques plutôt qu'au mérite scientifique, soulignant la nécessité de la non-manipulabilité et de la diversité pour l'automatisation.

27
ARTICLE↑ trendingReddit r/MachineLearning·30/04/2026

Chinese nexus/network in A* conferences rejecting non chinese papers [D]

Un utilisateur signale l'existence d'un prétendu réseau chinois influent lors de conférences d'IA (comme IJCAI), pratiquant le népotisme et rejetant les articles d'auteurs non chinois. L'auteur partage son expérience personnelle où un relecteur a exigé la citation d'un article dont l'auteur principal était chinois.

24