heapsort
RESEARCH30

Temperature-Dependent Performance of Prompting Strategies in Extended Reasoning Large Language Models

arXiv CS.CL·13 de abril de 2026

Este estudio evalúa el rendimiento de estrategias de prompting (chain-of-thought y zero-shot) en LLMs de razonamiento extendido como Grok-4.1, variando la temperatura de muestreo en 39 problemas matemáticos desafiantes. Se encontró que el prompting de disparo cero alcanza su máximo rendimiento a temperaturas moderadas, mientras que el chain-of-thought funciona mejor en los extremos de temperatura, aumentando el beneficio del razonamiento extendido.

Leer original