RESEARCH27

Model Organisms Are Leaky: Perplexity Differencing Often Reveals Finetuning Objectives

arXiv CS.CL·5 de maio de 2026

Este artigo apresenta um método baseado em perplexidade para revelar os objetivos de ajuste fino de grandes modelos de linguagem, especialmente aqueles que exibem comportamentos de "organismos modelo". O método explora a tendência dos modelos de supergeneralizar, gerando e classificando conclusões para identificar os objetivos de ajuste fino sem premissas prévias.

Finetuning Perplexity model safety Research Methods LLM

Ler original ↗