Chain-of-Thought

10 items

RESEARCHarXiv CS.AI·14/4/2026

OOWM: Structuring Embodied Reasoning and Planning via Object-Oriented Programmatic World Modeling

Object-Oriented World Modeling (OOWM) es un nuevo marco que aborda las limitaciones del prompting Chain-of-Thought en tareas corporizadas. Estructura el razonamiento corporizado y la planificación robótica redefiniendo el modelo de mundo como una tupla simbólica explícita y aprovechando formalismos de ingeniería de software como UML.

Robotic Planning LLMs Chain-of-Thought Embodied Reasoning

RESEARCHarXiv CS.LG·6/4/2026

From Broad Exploration to Stable Synthesis: Entropy-Guided Optimization for Autoregressive Image Generation

O artigo analisa a interação entre Chain-of-Thought (CoT) e Reinforcement Learning (RL) na geração de imagens a partir de texto (T2I) usando uma análise sistemática baseada em entropia. Ele revela que menor entropia dos tokens de imagem e do CoT textual se correlaciona com melhor qualidade de imagem, propondo a estratégia Entropy-Guided Group Relative Policy Optimization (EG-GRPO) para otimização com base na incerteza.

Optimization deep learning reinforcement learning Text-to-Image Generation

RESEARCHarXiv CS.AI·20/4/2026

LLM Reasoning Is Latent, Not the Chain of Thought

Este documento postula que el razonamiento de los LLM debe estudiarse como formación de trayectoria de estado latente, en lugar de una cadena de pensamiento (CoT) superficial y fiel. Formaliza tres hipótesis concurrentes sobre el objeto principal del razonamiento, afectando la fidelidad, interpretabilidad y evaluaciones.

Chain-of-Thought interpretability AI Reasoning large language models

RESEARCHarXiv CS.AI·13/4/2026

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

SPPO (Sequence-Level PPO) aborda las limitaciones del PPO estándar en tareas de razonamiento de LLMs de largo horizonte, reformulando el proceso como un problema de Bandido Contextual a Nivel de Secuencia. Este enfoque utiliza una función de valor escalar desacoplada para derivar señales de ventaja de baja varianza, mejorando la eficiencia de la muestra y la estabilidad sin la sobrecarga computacional.

LLMs reasoning tasks reinforcement learning PPO

ARTICLEDEV.to AI·13/4/2026

AI Agent Black Boxes Have Two Layers — Technical Limits and Business Incentives

El texto explora cómo el Chain-of-Thought (CoT) ha evolucionado de una técnica externa de ingeniería de prompt a una capacidad de razonamiento interna en modelos avanzados de IA. Investigaciones sugieren que aplicar CoT externo a estos modelos es ahora ineficaz, ya que el proceso de razonamiento ha sido internalizado.

prompt engineering Chain-of-Thought AI Reasoning AI

RESEARCHarXiv CS.LG·hace 15d

When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions

Esta investigación propone que el razonamiento de los LLM es un estado de decodificación dinámico, no una propiedad estática, observable a través de la dinámica de entropía en las primeras etapas durante la generación. Las tareas que se benefician de Chain-of-Thought muestran una reducción consistente de la entropía, interpretada como una transición de fase a un régimen de razonamiento estructurado.

AI models LLMs Chain-of-Thought Reasoning

RESEARCHarXiv CS.CL·10/4/2026

Decompose, Look, and Reason: Reinforced Latent Reasoning for VLMs

Este artigo propõe o DLR, um framework de raciocínio latente reforçado para Vision-Language Models (VLMs) que melhora o raciocínio visual complexo, superando a perda de informação em CoT textual. Ele decompõe dinamicamente consultas, extrai latentes visuais e deduz respostas, oferecendo maior interpretabilidade e superando baselines em benchmarks vision-centric.

Vision-Language Models visual reasoning Reinforced Latent Reasoning Chain-of-Thought

RESEARCHarXiv CS.CL·8/4/2026

TDA-RC: Task-Driven Alignment for Knowledge-Based Reasoning Chains in Large Language Models

Este artigo propõe um método baseado em topologia para otimizar cadeias de raciocínio em LLMs, visando superar lacunas lógicas e custos elevados. Ele quantifica características estruturais de CoT, ToT e GoT usando homologia persistente para aprimorar o paradigma CoT.

LLMs Chain-of-Thought Reasoning Tree-of-Thoughts

RESEARCHarXiv CS.AI·hace 15d

PathCal: State-Aware Reflection-Marker Calibration for Efficient Reasoning

Este artículo de investigación presenta 'PathCal', que investiga los distintos roles funcionales y el momento de los marcadores de reflexión en las trayectorias de Chain-of-Thought de los Large Reasoning Language Models. Revela que marcadores como 'wait' o 'but' difieren significativamente en su impacto en la precisión y la longitud de la generación, desafiando enfoques anteriores.

natural language processing Chain-of-Thought Reasoning large language models

RESEARCHarXiv CS.CL·hace 28d

Sanity Checks for Long-Form Hallucination Detection

Este trabajo de investigación presenta una metodología de invariancia controlada para la detección de alucinaciones en grandes modelos de lenguaje. Mediante pruebas de oráculo como extsc{Force} y extsc{Remove}, se explora si los métodos evalúan el razonamiento o solo correlatos superficiales de la respuesta final.

hallucination detection Chain-of-Thought large language models LLM evaluation