Chain-of-Thought

10 items

RESEARCHarXiv CS.AI·14/04/2026

OOWM: Structuring Embodied Reasoning and Planning via Object-Oriented Programmatic World Modeling

Object-Oriented World Modeling (OOWM) est un nouveau cadre qui aborde les limites du prompting Chain-of-Thought dans les tâches incarnées. Il structure le raisonnement incarné et la planification robotique en redéfinissant le modèle mondial comme un tuple symbolique explicite et en utilisant des formalismes d'ingénierie logicielle comme UML.

Robotic Planning LLMs Chain-of-Thought Embodied Reasoning

RESEARCHarXiv CS.LG·06/04/2026

From Broad Exploration to Stable Synthesis: Entropy-Guided Optimization for Autoregressive Image Generation

O artigo analisa a interação entre Chain-of-Thought (CoT) e Reinforcement Learning (RL) na geração de imagens a partir de texto (T2I) usando uma análise sistemática baseada em entropia. Ele revela que menor entropia dos tokens de imagem e do CoT textual se correlaciona com melhor qualidade de imagem, propondo a estratégia Entropy-Guided Group Relative Policy Optimization (EG-GRPO) para otimização com base na incerteza.

Optimization deep learning reinforcement learning Text-to-Image Generation

RESEARCHarXiv CS.AI·20/04/2026

LLM Reasoning Is Latent, Not the Chain of Thought

Ce document de position soutient que le raisonnement des LLM doit être étudié comme une formation de trajectoire d'état latent plutôt que comme une chaîne de pensée (CoT) superficielle et fidèle. Il formalise trois hypothèses concurrentes sur l'objet primaire du raisonnement, impactant la fidélité, l'interprétabilité et les benchmarks.

Chain-of-Thought interpretability AI Reasoning large language models

RESEARCHarXiv CS.AI·13/04/2026

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

Le SPPO (Sequence-Level PPO) remédie aux limites du PPO standard dans les tâches de raisonnement à long terme des LLM en reformulant le processus comme un problème de Bandit Contextuel au Niveau de la Séquence. Cette approche utilise une fonction de valeur scalaire découplée pour dériver des signaux d'avantage à faible variance, améliorant l'efficacité de l'échantillon et la stabilité sans les coûts de calcul élevés.

LLMs reasoning tasks reinforcement learning PPO

ARTICLEDEV.to AI·13/04/2026

AI Agent Black Boxes Have Two Layers — Technical Limits and Business Incentives

Le texte explore l'évolution du Chain-of-Thought (CoT), passant d'une technique externe d'ingénierie de prompt à une capacité de raisonnement interne dans les modèles d'IA avancés. Des recherches indiquent que l'application externe du CoT est désormais inefficace, le processus de raisonnement ayant été internalisé.

prompt engineering Chain-of-Thought AI Reasoning AI

RESEARCHarXiv CS.LG·il y a 15j

When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions

Cette recherche propose que le raisonnement des LLM est un état de décodage dynamique, et non une propriété statique, observable à travers la dynamique d'entropie aux premiers stades de la génération. Les tâches bénéficiant du Chain-of-Thought présentent une réduction d'entropie constante, interprétée comme une transition de phase vers un régime de raisonnement structuré.

AI models LLMs Chain-of-Thought Reasoning

RESEARCHarXiv CS.CL·10/04/2026

Decompose, Look, and Reason: Reinforced Latent Reasoning for VLMs

Este artigo propõe o DLR, um framework de raciocínio latente reforçado para Vision-Language Models (VLMs) que melhora o raciocínio visual complexo, superando a perda de informação em CoT textual. Ele decompõe dinamicamente consultas, extrai latentes visuais e deduz respostas, oferecendo maior interpretabilidade e superando baselines em benchmarks vision-centric.

Vision-Language Models visual reasoning Reinforced Latent Reasoning Chain-of-Thought

RESEARCHarXiv CS.CL·08/04/2026

TDA-RC: Task-Driven Alignment for Knowledge-Based Reasoning Chains in Large Language Models

Este artigo propõe um método baseado em topologia para otimizar cadeias de raciocínio em LLMs, visando superar lacunas lógicas e custos elevados. Ele quantifica características estruturais de CoT, ToT e GoT usando homologia persistente para aprimorar o paradigma CoT.

LLMs Chain-of-Thought Reasoning Tree-of-Thoughts

RESEARCHarXiv CS.AI·il y a 15j

PathCal: State-Aware Reflection-Marker Calibration for Efficient Reasoning

Cet article de recherche présente 'PathCal', qui étudie les rôles fonctionnels distincts et le moment d'apparition des marqueurs de réflexion dans les trajectoires de Chain-of-Thought des Large Reasoning Language Models. Il révèle que des marqueurs comme 'wait' ou 'but' diffèrent significativement dans leur impact sur la précision et la longueur de la génération, remettant en question les approches précédentes.

natural language processing Chain-of-Thought Reasoning large language models

RESEARCHarXiv CS.CL·il y a 28j

Sanity Checks for Long-Form Hallucination Detection

Cet article de recherche introduit une méthodologie d'invariance contrôlée pour la détection des hallucinations dans les grands modèles de langage. En utilisant des tests oracle comme extsc{Force} et extsc{Remove}, il examine si les méthodes évaluent le raisonnement ou de simples corrélats superficiels de la réponse finale.

hallucination detection Chain-of-Thought large language models LLM evaluation