← heapsort-ai

Chain-of-Thought

10 items

RESEARCHarXiv CS.AI·14/04/2026

OOWM: Structuring Embodied Reasoning and Planning via Object-Oriented Programmatic World Modeling

Object-Oriented World Modeling (OOWM) est un nouveau cadre qui aborde les limites du prompting Chain-of-Thought dans les tâches incarnées. Il structure le raisonnement incarné et la planification robotique en redéfinissant le modèle mondial comme un tuple symbolique explicite et en utilisant des formalismes d'ingénierie logicielle comme UML.

28
RESEARCHarXiv CS.LG·06/04/2026

From Broad Exploration to Stable Synthesis: Entropy-Guided Optimization for Autoregressive Image Generation

O artigo analisa a interação entre Chain-of-Thought (CoT) e Reinforcement Learning (RL) na geração de imagens a partir de texto (T2I) usando uma análise sistemática baseada em entropia. Ele revela que menor entropia dos tokens de imagem e do CoT textual se correlaciona com melhor qualidade de imagem, propondo a estratégia Entropy-Guided Group Relative Policy Optimization (EG-GRPO) para otimização com base na incerteza.

28
RESEARCHarXiv CS.AI·13/04/2026

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

Le SPPO (Sequence-Level PPO) remédie aux limites du PPO standard dans les tâches de raisonnement à long terme des LLM en reformulant le processus comme un problème de Bandit Contextuel au Niveau de la Séquence. Cette approche utilise une fonction de valeur scalaire découplée pour dériver des signaux d'avantage à faible variance, améliorant l'efficacité de l'échantillon et la stabilité sans les coûts de calcul élevés.

28
RESEARCHarXiv CS.LG·il y a 15j

When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions

Cette recherche propose que le raisonnement des LLM est un état de décodage dynamique, et non une propriété statique, observable à travers la dynamique d'entropie aux premiers stades de la génération. Les tâches bénéficiant du Chain-of-Thought présentent une réduction d'entropie constante, interprétée comme une transition de phase vers un régime de raisonnement structuré.

28
RESEARCHarXiv CS.CL·10/04/2026

Decompose, Look, and Reason: Reinforced Latent Reasoning for VLMs

Este artigo propõe o DLR, um framework de raciocínio latente reforçado para Vision-Language Models (VLMs) que melhora o raciocínio visual complexo, superando a perda de informação em CoT textual. Ele decompõe dinamicamente consultas, extrai latentes visuais e deduz respostas, oferecendo maior interpretabilidade e superando baselines em benchmarks vision-centric.

27
RESEARCHarXiv CS.AI·il y a 15j

PathCal: State-Aware Reflection-Marker Calibration for Efficient Reasoning

Cet article de recherche présente 'PathCal', qui étudie les rôles fonctionnels distincts et le moment d'apparition des marqueurs de réflexion dans les trajectoires de Chain-of-Thought des Large Reasoning Language Models. Il révèle que des marqueurs comme 'wait' ou 'but' diffèrent significativement dans leur impact sur la précision et la longueur de la génération, remettant en question les approches précédentes.

27