RESEARCH29

When Does a Language Model Commit? A Finite-Answer Theory of Pre-Verbalization Commitment

arXiv CS.AI·11 de mayo de 2026

Esta investigación propone una teoría de "estabilización de preferencia de respuesta finita" para identificar el momento en que la preferencia de respuesta de un modelo de lenguaje se vuelve estable. Muestra que esta estabilización ocurre a menudo antes de que la respuesta sea verbalizada, con un tiempo de anticipación notable.

language models cognitive science machine learning NLP AI Research

Leer original ↗