heapsort
RESEARCH28

From Actions to Understanding: Conformal Interpretability of Temporal Concepts in LLM Agents

arXiv CS.AI·23 avril 2026

Cet article présente un cadre d'interprétabilité conforme pour les agents LLM, visant à comprendre l'évolution temporelle des concepts. Il utilise la modélisation des récompenses par étapes et la prédiction conforme pour étiqueter les représentations internes et identifier les directions latentes de succès, d'échec ou de dérive du raisonnement.

Lire l'original