RESEARCH27
Model Organisms Are Leaky: Perplexity Differencing Often Reveals Finetuning Objectives
arXiv CS.CL·5 de mayo de 2026
Este artículo propone un método basado en la perplejidad para descubrir los objetivos de ajuste fino en grandes modelos de lenguaje, especialmente en "organismos modelo". El método aprovecha la sobregeneralización de los modelos para identificar sus comportamientos de ajuste fino sin necesidad de suposiciones previas.
Leer original ↗