← heapsort-ai

model safety

2 items

ARTICLE↑ trendingReddit r/LocalLLaMA·4/15/2026

I got it guys, I think I finally understand why you hate censored models

Der Nutzer versuchte, ein Qwen-Modell eine FTP-Verbindung mit Anmeldeinformationen automatisieren zu lassen, doch das Modell lehnte dies aufgrund von Sicherheitsrichtlinien ab. Diese Erfahrung ließ den Nutzer die Frustration über „zensierte“ Modelle verstehen, wobei Qwen seine Ablehnung mit Sicherheitsrichtlinien gegen den Umgang mit sensiblen Daten oder sicherheitsgefährdenden Aktionen begründete.

34
RESEARCHarXiv CS.CL·5/5/2026

Model Organisms Are Leaky: Perplexity Differencing Often Reveals Finetuning Objectives

Dieses Papier stellt eine perplexitätsbasierte Methode vor, um Feinabstimmungsziele von großen Sprachmodellen, insbesondere von "Modellorganismen", aufzudecken. Diese Methode nutzt die Tendenz der Modelle zur Übergeneralisierung, indem sie Vervollständigungen generiert und bewertet, um die Feinabstimmungsziele ohne vorherige Annahmen zu identifizieren.

27