RESEARCH27

Model Organisms Are Leaky: Perplexity Differencing Often Reveals Finetuning Objectives

arXiv CS.CL·5. Mai 2026

Dieses Papier stellt eine perplexitätsbasierte Methode vor, um Feinabstimmungsziele von großen Sprachmodellen, insbesondere von "Modellorganismen", aufzudecken. Diese Methode nutzt die Tendenz der Modelle zur Übergeneralisierung, indem sie Vervollständigungen generiert und bewertet, um die Feinabstimmungsziele ohne vorherige Annahmen zu identifizieren.

Finetuning Perplexity model safety Research Methods LLM

Original lesen ↗