RESEARCH27
Model Organisms Are Leaky: Perplexity Differencing Often Reveals Finetuning Objectives
arXiv CS.CL·5 de maio de 2026
Este artigo apresenta um método baseado em perplexidade para revelar os objetivos de ajuste fino de grandes modelos de linguagem, especialmente aqueles que exibem comportamentos de "organismos modelo". O método explora a tendência dos modelos de supergeneralizar, gerando e classificando conclusões para identificar os objetivos de ajuste fino sem premissas prévias.
Ler original ↗