← heapsort-ai

Chain-of-Thought

10 items

RESEARCHarXiv CS.AI·4/14/2026

OOWM: Structuring Embodied Reasoning and Planning via Object-Oriented Programmatic World Modeling

Objektorientierte Weltmodellierung (OOWM) ist ein neuartiges Framework, das die Einschränkungen des Chain-of-Thought-Prompting bei verkörperten Aufgaben adressiert. Es strukturiert verkörpertes Denken und Roboterplanung, indem es das Weltmodell als explizites symbolisches Tupel neu definiert und Software-Engineering-Formalismen wie UML nutzt.

28
RESEARCHarXiv CS.LG·4/6/2026

From Broad Exploration to Stable Synthesis: Entropy-Guided Optimization for Autoregressive Image Generation

O artigo analisa a interação entre Chain-of-Thought (CoT) e Reinforcement Learning (RL) na geração de imagens a partir de texto (T2I) usando uma análise sistemática baseada em entropia. Ele revela que menor entropia dos tokens de imagem e do CoT textual se correlaciona com melhor qualidade de imagem, propondo a estratégia Entropy-Guided Group Relative Policy Optimization (EG-GRPO) para otimização com base na incerteza.

28
RESEARCHarXiv CS.AI·4/13/2026

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

Sequence-Level PPO (SPPO) behebt die Einschränkungen des standardmäßigen Token-Level PPO bei langfristigen LLM-Begründungsaufgaben, indem es den Prozess als ein Sequence-Level Contextual Bandit-Problem neu formuliert. Dieser Ansatz nutzt eine entkoppelte skalare Wertfunktion, um Vorteilssignale mit geringer Varianz abzuleiten, was eine verbesserte Stichprobeneffizienz und Stabilität ohne den hohen Rechenaufwand kritikerfreier Alternativen bietet.

28
RESEARCHarXiv CS.LG·vor 15T

When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions

Diese Forschung schlägt vor, dass das LLM-Schlussfolgern ein dynamischer Dekodierungszustand ist, keine statische Eigenschaft, erkennbar durch frühzeitige Entropiedynamiken während der Generierung. Aufgaben, die von Chain-of-Thought profitieren, zeigen eine konsistente Entropiereduktion, interpretiert als Phasenübergang zu einem strukturierten Schlussfolgerungsregime.

28
RESEARCHarXiv CS.CL·4/10/2026

Decompose, Look, and Reason: Reinforced Latent Reasoning for VLMs

Este artigo propõe o DLR, um framework de raciocínio latente reforçado para Vision-Language Models (VLMs) que melhora o raciocínio visual complexo, superando a perda de informação em CoT textual. Ele decompõe dinamicamente consultas, extrai latentes visuais e deduz respostas, oferecendo maior interpretabilidade e superando baselines em benchmarks vision-centric.

27
RESEARCHarXiv CS.AI·vor 15T

PathCal: State-Aware Reflection-Marker Calibration for Efficient Reasoning

Diese Forschungsarbeit stellt 'PathCal' vor, die die unterschiedlichen funktionalen Rollen und den Zeitpunkt von Reflexionsmarkern in den Chain-of-Thought-Trajektorien großer Reasoning Language Models untersucht. Es zeigt sich, dass Marker wie 'wait' oder 'but' erheblich in ihrem Einfluss auf Genauigkeit und Generierungslänge variieren, was frühere grobkörnige Ansätze in Frage stellt.

27