From Actions to Understanding: Conformal Interpretability of Temporal Concepts in LLM Agents
Este artículo introduce un marco de interpretabilidad conformal para agentes LLM, con el fin de comprender la evolución temporal de conceptos. Combina el modelado de recompensas paso a paso y la predicción conformal para etiquetar representaciones internas e identificar direcciones latentes de éxito, fracaso o deriva del razonamiento.