RESEARCH28

From Actions to Understanding: Conformal Interpretability of Temporal Concepts in LLM Agents

arXiv CS.AI·23 de abril de 2026

Este artigo apresenta uma estrutura de interpretabilidade conformal para agentes LLM, visando entender a evolução temporal de conceitos. Utiliza modelagem de recompensa passo a passo e previsão conformal para rotular representações internas e identificar direções latentes de sucesso, falha ou desvio de raciocínio.

LLM Agents AI interpretability Conformal Prediction

Ler original ↗