RESEARCH29
When Does a Language Model Commit? A Finite-Answer Theory of Pre-Verbalization Commitment
arXiv CS.AI·11 de mayo de 2026
Esta investigación propone una teoría de "estabilización de preferencia de respuesta finita" para identificar el momento en que la preferencia de respuesta de un modelo de lenguaje se vuelve estable. Muestra que esta estabilización ocurre a menudo antes de que la respuesta sea verbalizada, con un tiempo de anticipación notable.
Leer original ↗