model safety

2 items

ARTICLE↑ trendingReddit r/LocalLLaMA·15/04/2026

I got it guys, I think I finally understand why you hate censored models

L'utilisateur a tenté de faire en sorte qu'un modèle Qwen automatise une connexion FTP avec des identifiants, mais le modèle a refusé en raison de politiques de sécurité. Cette expérience lui a fait comprendre la frustration liée aux modèles "censurés" qui privilégient la sécurité. Le modèle Qwen a justifié son refus en citant des politiques de sécurité interdisant le traitement des identifiants sensibles ou l'exécution d'actions susceptibles de compromettre la sécurité.

censorship model safety AI ethics LLM limitations

RESEARCHarXiv CS.CL·05/05/2026

Model Organisms Are Leaky: Perplexity Differencing Often Reveals Finetuning Objectives

Cet article propose une méthode basée sur la perplexité pour révéler les objectifs de réglage fin des grands modèles linguistiques, notamment ceux présentant des comportements d'"organismes modèles". Cette approche exploite la tendance des modèles à sur-généraliser, en générant et classant des complétions pour identifier les objectifs de réglage fin sans hypothèses préalables.

Finetuning Perplexity model safety Research Methods