← heapsort-ai

research integrity

7 items

ARTICLE↑ trendingReddit r/MachineLearning·06/05/2026

Stop letting LLMs edit your .bib [D]

O autor expressa choque com a frequência de citações alucinadas por LLMs em artigos acadêmicos, resultando em listas de autores incorretas. Ele questiona a falta de respeito pela pesquisa e a necessidade de punições mais severas, perguntando se outros vivenciam o mesmo problema.

42
CASE↑ trendingReddit r/MachineLearning·08/04/2026

[D] Dealing with an unprofessional reviewer using fake references and personal attacks in ICML26

Um autor descreve enfrentar um avaliador extremamente antiprofissional no ICML 2026, que utilizou referências falsas, ataques pessoais e argumentos sem sentido para desqualificar seu trabalho. O autor busca orientação sobre como intervir contra um avaliador que emprega citações fraudulentas e ataques ad hominem no processo de revisão por pares.

35
ARTICLEDEV.to AI·12/04/2026

The Benchmark Is Not the Behavior

Uma equipe da UC Berkeley demonstrou como explorar falhas em oito benchmarks de agentes de IA, manipulando os métodos de avaliação em vez de construir agentes melhores. Isso expôs que os benchmarks dependem de um "sistema de honra" vulnerável a manipulação, levantando sérias questões sobre a integridade da avaliação de IA.

28
RESEARCHarXiv CS.AI·27/04/2026

Sound Agentic Science Requires Adversarial Experiments

Agentes baseados em LLM estão sendo rapidamente adotados na análise de dados científicos, mas correm o risco de produzir rapidamente análises plausíveis otimizadas para resultados positivos. Os autores propõem que as afirmações não experimentais feitas com assistência de agentes sejam avaliadas sob uma ótica de falsificação para garantir a robustez do conhecimento científico.

27
RESEARCHarXiv CS.AI·06/05/2026

Stop Automating Peer Review Without Rigorous Evaluation

Este artigo argumenta contra o uso de sistemas de IA atuais para a revisão por pares, destacando dois problemas críticos: o "efeito de colmeia" que reduz a diversidade de perspectivas e a facilidade de ludibriar as revisões de IA através de reformulações estilísticas do texto. A pesquisa empírica compara revisões humanas e geradas por IA, enfatizando que a não-enganebilidade e a diversidade são condições necessárias para a automação na revisão por pares.

27