Chain-of-Thought

10 items

RESEARCHarXiv CS.AI·4/14/2026

OOWM: Structuring Embodied Reasoning and Planning via Object-Oriented Programmatic World Modeling

Objektorientierte Weltmodellierung (OOWM) ist ein neuartiges Framework, das die Einschränkungen des Chain-of-Thought-Prompting bei verkörperten Aufgaben adressiert. Es strukturiert verkörpertes Denken und Roboterplanung, indem es das Weltmodell als explizites symbolisches Tupel neu definiert und Software-Engineering-Formalismen wie UML nutzt.

Robotic Planning LLMs Chain-of-Thought Embodied Reasoning

RESEARCHarXiv CS.LG·4/6/2026

From Broad Exploration to Stable Synthesis: Entropy-Guided Optimization for Autoregressive Image Generation

O artigo analisa a interação entre Chain-of-Thought (CoT) e Reinforcement Learning (RL) na geração de imagens a partir de texto (T2I) usando uma análise sistemática baseada em entropia. Ele revela que menor entropia dos tokens de imagem e do CoT textual se correlaciona com melhor qualidade de imagem, propondo a estratégia Entropy-Guided Group Relative Policy Optimization (EG-GRPO) para otimização com base na incerteza.

Optimization deep learning reinforcement learning Text-to-Image Generation

RESEARCHarXiv CS.AI·4/20/2026

LLM Reasoning Is Latent, Not the Chain of Thought

Dieses Positionspapier argumentiert, dass das LLM-Schlussfolgern als latente Zustandsentwicklung und nicht als oberflächliche, getreue Gedankenketten (CoT) untersucht werden sollte. Es formalisiert drei konkurrierende Hypothesen über das primäre Objekt des Schlussfolgerns, was Auswirkungen auf Treue, Interpretierbarkeit und Benchmarks hat.

Chain-of-Thought interpretability AI Reasoning large language models

RESEARCHarXiv CS.AI·4/13/2026

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

Sequence-Level PPO (SPPO) behebt die Einschränkungen des standardmäßigen Token-Level PPO bei langfristigen LLM-Begründungsaufgaben, indem es den Prozess als ein Sequence-Level Contextual Bandit-Problem neu formuliert. Dieser Ansatz nutzt eine entkoppelte skalare Wertfunktion, um Vorteilssignale mit geringer Varianz abzuleiten, was eine verbesserte Stichprobeneffizienz und Stabilität ohne den hohen Rechenaufwand kritikerfreier Alternativen bietet.

LLMs reasoning tasks reinforcement learning PPO

ARTICLEDEV.to AI·4/13/2026

AI Agent Black Boxes Have Two Layers — Technical Limits and Business Incentives

Der Text untersucht, wie sich Chain-of-Thought (CoT) von einer externen Prompt-Engineering-Technik zu einer internen Denkfähigkeit in fortgeschrittenen KI-Modellen entwickelt hat. Forschungsergebnisse zeigen, dass die Anwendung externer CoT auf diese Modelle nun ineffektiv ist, da der Denkprozess internalisiert wurde.

prompt engineering Chain-of-Thought AI Reasoning AI

RESEARCHarXiv CS.LG·vor 15T

When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions

Diese Forschung schlägt vor, dass das LLM-Schlussfolgern ein dynamischer Dekodierungszustand ist, keine statische Eigenschaft, erkennbar durch frühzeitige Entropiedynamiken während der Generierung. Aufgaben, die von Chain-of-Thought profitieren, zeigen eine konsistente Entropiereduktion, interpretiert als Phasenübergang zu einem strukturierten Schlussfolgerungsregime.

AI models LLMs Chain-of-Thought Reasoning

RESEARCHarXiv CS.CL·4/10/2026

Decompose, Look, and Reason: Reinforced Latent Reasoning for VLMs

Este artigo propõe o DLR, um framework de raciocínio latente reforçado para Vision-Language Models (VLMs) que melhora o raciocínio visual complexo, superando a perda de informação em CoT textual. Ele decompõe dinamicamente consultas, extrai latentes visuais e deduz respostas, oferecendo maior interpretabilidade e superando baselines em benchmarks vision-centric.

Vision-Language Models visual reasoning Reinforced Latent Reasoning Chain-of-Thought

RESEARCHarXiv CS.CL·4/8/2026

TDA-RC: Task-Driven Alignment for Knowledge-Based Reasoning Chains in Large Language Models

Este artigo propõe um método baseado em topologia para otimizar cadeias de raciocínio em LLMs, visando superar lacunas lógicas e custos elevados. Ele quantifica características estruturais de CoT, ToT e GoT usando homologia persistente para aprimorar o paradigma CoT.

LLMs Chain-of-Thought Reasoning Tree-of-Thoughts

RESEARCHarXiv CS.AI·vor 15T

PathCal: State-Aware Reflection-Marker Calibration for Efficient Reasoning

Diese Forschungsarbeit stellt 'PathCal' vor, die die unterschiedlichen funktionalen Rollen und den Zeitpunkt von Reflexionsmarkern in den Chain-of-Thought-Trajektorien großer Reasoning Language Models untersucht. Es zeigt sich, dass Marker wie 'wait' oder 'but' erheblich in ihrem Einfluss auf Genauigkeit und Generierungslänge variieren, was frühere grobkörnige Ansätze in Frage stellt.

natural language processing Chain-of-Thought Reasoning large language models

RESEARCHarXiv CS.CL·vor 28T

Sanity Checks for Long-Form Hallucination Detection

Diese Forschungsarbeit stellt eine kontrollierte Invarianzmethodologie zur Erkennung von Halluzinationen in großen Sprachmodellen vor. Mittels Orakeltests wie extsc{Force} und extsc{Remove} wird untersucht, ob Detektionsmethoden das Denken oder lediglich Oberflächenkorrelate der finalen Antwort bewerten.

hallucination detection Chain-of-Thought large language models LLM evaluation