From Actions to Understanding: Conformal Interpretability of Temporal Concepts in LLM Agents
Este artigo apresenta uma estrutura de interpretabilidade conformal para agentes LLM, visando entender a evolução temporal de conceitos. Utiliza modelagem de recompensa passo a passo e previsão conformal para rotular representações internas e identificar direções latentes de sucesso, falha ou desvio de raciocínio.