RESEARCH27
Model Organisms Are Leaky: Perplexity Differencing Often Reveals Finetuning Objectives
arXiv CS.CL·5. Mai 2026
Dieses Papier stellt eine perplexitätsbasierte Methode vor, um Feinabstimmungsziele von großen Sprachmodellen, insbesondere von "Modellorganismen", aufzudecken. Diese Methode nutzt die Tendenz der Modelle zur Übergeneralisierung, indem sie Vervollständigungen generiert und bewertet, um die Feinabstimmungsziele ohne vorherige Annahmen zu identifizieren.
Original lesen ↗