model safety

2 items

ARTICLE↑ trendingReddit r/LocalLLaMA·15/04/2026

I got it guys, I think I finally understand why you hate censored models

O usuário tentou que um modelo Qwen automatizasse a conexão a um FTP com credenciais, mas o modelo recusou por políticas de segurança. Essa experiência o fez compreender a frustração com modelos "censurados" que priorizam a segurança. O modelo Qwen justificou sua recusa citando políticas de segurança para não manusear credenciais sensíveis ou realizar ações que pudessem comprometer a segurança.

censorship model safety AI ethics LLM limitations

RESEARCHarXiv CS.CL·05/05/2026

Model Organisms Are Leaky: Perplexity Differencing Often Reveals Finetuning Objectives

Este artigo apresenta um método baseado em perplexidade para revelar os objetivos de ajuste fino de grandes modelos de linguagem, especialmente aqueles que exibem comportamentos de "organismos modelo". O método explora a tendência dos modelos de supergeneralizar, gerando e classificando conclusões para identificar os objetivos de ajuste fino sem premissas prévias.

Finetuning Perplexity model safety Research Methods