RESEARCH27
Model Organisms Are Leaky: Perplexity Differencing Often Reveals Finetuning Objectives
arXiv CS.CL·5 mai 2026
Cet article propose une méthode basée sur la perplexité pour révéler les objectifs de réglage fin des grands modèles linguistiques, notamment ceux présentant des comportements d'"organismes modèles". Cette approche exploite la tendance des modèles à sur-généraliser, en générant et classant des complétions pour identifier les objectifs de réglage fin sans hypothèses préalables.
Lire l'original ↗