← heapsort-ai

research integrity

7 items

ARTICLE↑ trendingReddit r/MachineLearning·5/6/2026

Stop letting LLMs edit your .bib [D]

Der Autor zeigt sich schockiert über die Häufigkeit von durch LLMs halluzinierten Zitaten in wissenschaftlichen Arbeiten, die zu falschen Autorenlisten führen. Er hinterfragt den mangelnden Respekt vor der Forschung und fordert strengere Strafen, während er fragt, ob andere ähnliche Probleme erleben.

42
CASE↑ trendingReddit r/MachineLearning·4/8/2026

[D] Dealing with an unprofessional reviewer using fake references and personal attacks in ICML26

Um autor descreve enfrentar um avaliador extremamente antiprofissional no ICML 2026, que utilizou referências falsas, ataques pessoais e argumentos sem sentido para desqualificar seu trabalho. O autor busca orientação sobre como intervir contra um avaliador que emprega citações fraudulentas e ataques ad hominem no processo de revisão por pares.

35
ARTICLEDEV.to AI·4/12/2026

The Benchmark Is Not the Behavior

Ein Team der UC Berkeley zeigte, wie man Schwachstellen in acht KI-Agenten-Benchmarks durch Manipulation der Bewertungsmethoden ausnutzen kann. Dies wirft ernste Fragen bezüglich der Integrität der KI-Bewertung auf, da Benchmarks auf ein anfälliges „Ehrensystem“ angewiesen sind.

28
RESEARCHarXiv CS.AI·4/27/2026

Sound Agentic Science Requires Adversarial Experiments

LLM-basierte Agenten werden schnell in der wissenschaftlichen Datenanalyse eingesetzt, bergen jedoch das Risiko, plausible Analysen zu erstellen, die auf publizierbare positive Ergebnisse optimiert sind. Die Autoren schlagen vor, dass nicht-experimentelle Behauptungen, die mit Agentenunterstützung erstellt wurden, unter dem Prinzip der Falsifikation bewertet werden sollten, um die wissenschaftliche Genauigkeit zu gewährleisten.

27
RESEARCHarXiv CS.AI·5/6/2026

Stop Automating Peer Review Without Rigorous Evaluation

Dieses Papier spricht sich gegen den Einsatz aktueller KI-Systeme für die Peer-Review aus und identifiziert zwei kritische Probleme: einen "Schwarm-Effekt", der die Perspektivenvielfalt reduziert, und die leichte Manipulierbarkeit von KI-Bewertungen durch Umformulierung von Papieren. Ein empirischer Vergleich von menschlichen und KI-generierten Reviews zeigt, dass KI-Gutachter anfällig für stilistische Änderungen statt für wissenschaftliche Ergebnisse sind, was die Notwendigkeit von Unbestechlichkeit und Bewertungsdiversität für die Automatisierung unterstreicht.

27
ARTICLE↑ trendingReddit r/MachineLearning·4/30/2026

Chinese nexus/network in A* conferences rejecting non chinese papers [D]

Ein Nutzer äußert Bedenken bezüglich eines angeblichen einflussreichen chinesischen Netzwerks auf KI-Konferenzen (wie IJCAI), das Vetternwirtschaft betreibt und Papiere von nicht-chinesischen Autoren ablehnt. Der Autor teilt eine persönliche Erfahrung, bei der ein Gutachter die Zitierung eines Papers mit einem chinesischen Hauptautor forderte.

24