RESEARCH28

From Actions to Understanding: Conformal Interpretability of Temporal Concepts in LLM Agents

arXiv CS.AI·23. April 2026

Dieses Papier stellt einen konformen Interpretierbarkeitsrahmen für LLM-Agenten vor, um die zeitliche Entwicklung von Konzepten zu verstehen. Es kombiniert schrittweise Belohnungsmodellierung mit konformer Vorhersage, um interne Repräsentationen statistisch zu kennzeichnen und latente Richtungen für Erfolg, Misserfolg oder Argumentationsdrift zu identifizieren.

LLM Agents AI interpretability Conformal Prediction

Original lesen ↗