RESEARCH27

Model Organisms Are Leaky: Perplexity Differencing Often Reveals Finetuning Objectives

arXiv CS.CL·5 de mayo de 2026

Este artículo propone un método basado en la perplejidad para descubrir los objetivos de ajuste fino en grandes modelos de lenguaje, especialmente en "organismos modelo". El método aprovecha la sobregeneralización de los modelos para identificar sus comportamientos de ajuste fino sin necesidad de suposiciones previas.

Finetuning Perplexity model safety Research Methods LLM

Leer original ↗