From Actions to Understanding: Conformal Interpretability of Temporal Concepts in LLM Agents
Cet article présente un cadre d'interprétabilité conforme pour les agents LLM, visant à comprendre l'évolution temporelle des concepts. Il utilise la modélisation des récompenses par étapes et la prédiction conforme pour étiqueter les représentations internes et identifier les directions latentes de succès, d'échec ou de dérive du raisonnement.