RESEARCH28

From Actions to Understanding: Conformal Interpretability of Temporal Concepts in LLM Agents

arXiv CS.AI·23 de abril de 2026

Este artículo introduce un marco de interpretabilidad conformal para agentes LLM, con el fin de comprender la evolución temporal de conceptos. Combina el modelado de recompensas paso a paso y la predicción conformal para etiquetar representaciones internas e identificar direcciones latentes de éxito, fracaso o deriva del razonamiento.

LLM Agents AI interpretability Conformal Prediction

Leer original ↗