← heapsort-ai

Chain-of-Thought

10 items

RESEARCHarXiv CS.AI·14/4/2026

OOWM: Structuring Embodied Reasoning and Planning via Object-Oriented Programmatic World Modeling

Object-Oriented World Modeling (OOWM) es un nuevo marco que aborda las limitaciones del prompting Chain-of-Thought en tareas corporizadas. Estructura el razonamiento corporizado y la planificación robótica redefiniendo el modelo de mundo como una tupla simbólica explícita y aprovechando formalismos de ingeniería de software como UML.

28
RESEARCHarXiv CS.LG·6/4/2026

From Broad Exploration to Stable Synthesis: Entropy-Guided Optimization for Autoregressive Image Generation

O artigo analisa a interação entre Chain-of-Thought (CoT) e Reinforcement Learning (RL) na geração de imagens a partir de texto (T2I) usando uma análise sistemática baseada em entropia. Ele revela que menor entropia dos tokens de imagem e do CoT textual se correlaciona com melhor qualidade de imagem, propondo a estratégia Entropy-Guided Group Relative Policy Optimization (EG-GRPO) para otimização com base na incerteza.

28
RESEARCHarXiv CS.AI·13/4/2026

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

SPPO (Sequence-Level PPO) aborda las limitaciones del PPO estándar en tareas de razonamiento de LLMs de largo horizonte, reformulando el proceso como un problema de Bandido Contextual a Nivel de Secuencia. Este enfoque utiliza una función de valor escalar desacoplada para derivar señales de ventaja de baja varianza, mejorando la eficiencia de la muestra y la estabilidad sin la sobrecarga computacional.

28
RESEARCHarXiv CS.LG·hace 15d

When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions

Esta investigación propone que el razonamiento de los LLM es un estado de decodificación dinámico, no una propiedad estática, observable a través de la dinámica de entropía en las primeras etapas durante la generación. Las tareas que se benefician de Chain-of-Thought muestran una reducción consistente de la entropía, interpretada como una transición de fase a un régimen de razonamiento estructurado.

28
RESEARCHarXiv CS.CL·10/4/2026

Decompose, Look, and Reason: Reinforced Latent Reasoning for VLMs

Este artigo propõe o DLR, um framework de raciocínio latente reforçado para Vision-Language Models (VLMs) que melhora o raciocínio visual complexo, superando a perda de informação em CoT textual. Ele decompõe dinamicamente consultas, extrai latentes visuais e deduz respostas, oferecendo maior interpretabilidade e superando baselines em benchmarks vision-centric.

27
RESEARCHarXiv CS.AI·hace 15d

PathCal: State-Aware Reflection-Marker Calibration for Efficient Reasoning

Este artículo de investigación presenta 'PathCal', que investiga los distintos roles funcionales y el momento de los marcadores de reflexión en las trayectorias de Chain-of-Thought de los Large Reasoning Language Models. Revela que marcadores como 'wait' o 'but' difieren significativamente en su impacto en la precisión y la longitud de la generación, desafiando enfoques anteriores.

27