heapsort
RESEARCH30

Temperature-Dependent Performance of Prompting Strategies in Extended Reasoning Large Language Models

arXiv CS.CL·13 de abril de 2026

Este estudo avalia o desempenho de estratégias de prompting (chain-of-thought e zero-shot) em LLMs de raciocínio estendido como o Grok-4.1, variando a temperatura de amostragem em 39 problemas matemáticos desafiadores. Descobriu-se que o prompting zero-shot atinge o pico de desempenho em temperaturas moderadas, enquanto o chain-of-thought funciona melhor nos extremos, aumentando significativamente o benefício do raciocínio estendido.

Ler original