RESEARCH28
From Actions to Understanding: Conformal Interpretability of Temporal Concepts in LLM Agents
arXiv CS.AI·23. April 2026
Dieses Papier stellt einen konformen Interpretierbarkeitsrahmen für LLM-Agenten vor, um die zeitliche Entwicklung von Konzepten zu verstehen. Es kombiniert schrittweise Belohnungsmodellierung mit konformer Vorhersage, um interne Repräsentationen statistisch zu kennzeichnen und latente Richtungen für Erfolg, Misserfolg oder Argumentationsdrift zu identifizieren.
Original lesen ↗