← heapsort-ai

Chain-of-Thought

10 items

RESEARCHarXiv CS.AI·14/04/2026

OOWM: Structuring Embodied Reasoning and Planning via Object-Oriented Programmatic World Modeling

Object-Oriented World Modeling (OOWM) é uma nova estrutura que aborda as limitações da abordagem Chain-of-Thought em tarefas corporificadas. Ele estrutura o raciocínio corporificado e o planejamento robótico, redefinindo o modelo de mundo como uma tupla simbólica explícita e utilizando formalismos de engenharia de software como UML.

28
RESEARCHarXiv CS.LG·06/04/2026

From Broad Exploration to Stable Synthesis: Entropy-Guided Optimization for Autoregressive Image Generation

O artigo analisa a interação entre Chain-of-Thought (CoT) e Reinforcement Learning (RL) na geração de imagens a partir de texto (T2I) usando uma análise sistemática baseada em entropia. Ele revela que menor entropia dos tokens de imagem e do CoT textual se correlaciona com melhor qualidade de imagem, propondo a estratégia Entropy-Guided Group Relative Policy Optimization (EG-GRPO) para otimização com base na incerteza.

28
RESEARCHarXiv CS.AI·13/04/2026

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

O SPPO (Sequence-Level PPO) aborda as limitações do PPO padrão em tarefas de raciocínio de LLMs de longo horizonte, reformulando o processo como um problema de Bandido Contextual de Nível de Sequência. Isso permite derivar sinais de vantagem de baixa variância com uma função de valor escalar desacoplada, melhorando a eficiência de amostra e a estabilidade sem o alto custo computacional.

28
RESEARCHarXiv CS.LG·15d atrás

When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions

Esta pesquisa propõe que o raciocínio de LLMs é um estado de decodificação dinâmico, não uma propriedade estática, observável através da dinâmica de entropia em estágios iniciais durante a geração. Tarefas que se beneficiam do Chain-of-Thought exibem uma redução consistente da entropia, interpretada como uma transição de fase para um regime de raciocínio estruturado.

28
RESEARCHarXiv CS.CL·10/04/2026

Decompose, Look, and Reason: Reinforced Latent Reasoning for VLMs

Este artigo propõe o DLR, um framework de raciocínio latente reforçado para Vision-Language Models (VLMs) que melhora o raciocínio visual complexo, superando a perda de informação em CoT textual. Ele decompõe dinamicamente consultas, extrai latentes visuais e deduz respostas, oferecendo maior interpretabilidade e superando baselines em benchmarks vision-centric.

27
RESEARCHarXiv CS.AI·15d atrás

PathCal: State-Aware Reflection-Marker Calibration for Efficient Reasoning

Este artigo de pesquisa apresenta 'PathCal', investigando os distintos papéis funcionais e o momento dos marcadores de reflexão nas trajetórias de Chain-of-Thought de Large Reasoning Language Models. Ele revela que marcadores como 'wait' ou 'but' diferem significativamente em seu impacto na precisão e no comprimento da geração, desafiando abordagens anteriores.

27