RESEARCH27

Model Organisms Are Leaky: Perplexity Differencing Often Reveals Finetuning Objectives

arXiv CS.CL·5 mai 2026

Cet article propose une méthode basée sur la perplexité pour révéler les objectifs de réglage fin des grands modèles linguistiques, notamment ceux présentant des comportements d'"organismes modèles". Cette approche exploite la tendance des modèles à sur-généraliser, en générant et classant des complétions pour identifier les objectifs de réglage fin sans hypothèses préalables.

Finetuning Perplexity model safety Research Methods LLM

Lire l'original ↗