Chain-of-Thought

10 items

RESEARCHarXiv CS.AI·14/04/2026

OOWM: Structuring Embodied Reasoning and Planning via Object-Oriented Programmatic World Modeling

Object-Oriented World Modeling (OOWM) é uma nova estrutura que aborda as limitações da abordagem Chain-of-Thought em tarefas corporificadas. Ele estrutura o raciocínio corporificado e o planejamento robótico, redefinindo o modelo de mundo como uma tupla simbólica explícita e utilizando formalismos de engenharia de software como UML.

Robotic Planning LLMs Chain-of-Thought Embodied Reasoning

RESEARCHarXiv CS.LG·06/04/2026

From Broad Exploration to Stable Synthesis: Entropy-Guided Optimization for Autoregressive Image Generation

O artigo analisa a interação entre Chain-of-Thought (CoT) e Reinforcement Learning (RL) na geração de imagens a partir de texto (T2I) usando uma análise sistemática baseada em entropia. Ele revela que menor entropia dos tokens de imagem e do CoT textual se correlaciona com melhor qualidade de imagem, propondo a estratégia Entropy-Guided Group Relative Policy Optimization (EG-GRPO) para otimização com base na incerteza.

Optimization deep learning reinforcement learning Text-to-Image Generation

RESEARCHarXiv CS.AI·20/04/2026

LLM Reasoning Is Latent, Not the Chain of Thought

Este artigo de posição argumenta que o raciocínio de LLMs deve ser estudado como formação de trajetória de estado latente, em vez de cadeia de pensamento (CoT) superficial e fiel. Ele formaliza três hipóteses concorrentes sobre o objeto primário do raciocínio, impactando alegações sobre fidelidade, interpretabilidade e benchmarks.

Chain-of-Thought interpretability AI Reasoning large language models

RESEARCHarXiv CS.AI·13/04/2026

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

O SPPO (Sequence-Level PPO) aborda as limitações do PPO padrão em tarefas de raciocínio de LLMs de longo horizonte, reformulando o processo como um problema de Bandido Contextual de Nível de Sequência. Isso permite derivar sinais de vantagem de baixa variância com uma função de valor escalar desacoplada, melhorando a eficiência de amostra e a estabilidade sem o alto custo computacional.

LLMs reasoning tasks reinforcement learning PPO

ARTICLEDEV.to AI·13/04/2026

AI Agent Black Boxes Have Two Layers — Technical Limits and Business Incentives

O texto explora como o Chain-of-Thought (CoT) evoluiu de uma técnica externa de engenharia de prompt para uma capacidade de raciocínio interna em modelos avançados de IA. Pesquisas indicam que aplicar o CoT externo a esses modelos agora é ineficaz, pois o processo de raciocínio foi internalizado.

prompt engineering Chain-of-Thought AI Reasoning AI

RESEARCHarXiv CS.LG·15d atrás

When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions

Esta pesquisa propõe que o raciocínio de LLMs é um estado de decodificação dinâmico, não uma propriedade estática, observável através da dinâmica de entropia em estágios iniciais durante a geração. Tarefas que se beneficiam do Chain-of-Thought exibem uma redução consistente da entropia, interpretada como uma transição de fase para um regime de raciocínio estruturado.

AI models LLMs Chain-of-Thought Reasoning

RESEARCHarXiv CS.CL·10/04/2026

Decompose, Look, and Reason: Reinforced Latent Reasoning for VLMs

Este artigo propõe o DLR, um framework de raciocínio latente reforçado para Vision-Language Models (VLMs) que melhora o raciocínio visual complexo, superando a perda de informação em CoT textual. Ele decompõe dinamicamente consultas, extrai latentes visuais e deduz respostas, oferecendo maior interpretabilidade e superando baselines em benchmarks vision-centric.

Vision-Language Models visual reasoning Reinforced Latent Reasoning Chain-of-Thought

RESEARCHarXiv CS.CL·08/04/2026

TDA-RC: Task-Driven Alignment for Knowledge-Based Reasoning Chains in Large Language Models

Este artigo propõe um método baseado em topologia para otimizar cadeias de raciocínio em LLMs, visando superar lacunas lógicas e custos elevados. Ele quantifica características estruturais de CoT, ToT e GoT usando homologia persistente para aprimorar o paradigma CoT.

LLMs Chain-of-Thought Reasoning Tree-of-Thoughts

RESEARCHarXiv CS.AI·15d atrás

PathCal: State-Aware Reflection-Marker Calibration for Efficient Reasoning

Este artigo de pesquisa apresenta 'PathCal', investigando os distintos papéis funcionais e o momento dos marcadores de reflexão nas trajetórias de Chain-of-Thought de Large Reasoning Language Models. Ele revela que marcadores como 'wait' ou 'but' diferem significativamente em seu impacto na precisão e no comprimento da geração, desafiando abordagens anteriores.

natural language processing Chain-of-Thought Reasoning large language models

RESEARCHarXiv CS.CL·28d atrás

Sanity Checks for Long-Form Hallucination Detection

Este artigo de pesquisa introduz uma metodologia de invariância controlada para detecção de alucinações em modelos de linguagem grandes. Utilizando testes oracle como extsc{Force} e extsc{Remove}, a pesquisa investiga se os métodos avaliam o raciocínio ou apenas correlatos superficiais da resposta final.

hallucination detection Chain-of-Thought large language models LLM evaluation