RESEARCHarXiv CS.LG·hace 14d
ARBITER: Reasoning Trajectory Basins and Majority Vote Failures in Test-Time Sampling
Cuando los modelos de lenguaje usan muestreo en tiempo de prueba y voto mayoritario, las trayectorias de razonamiento se concentran en
27