Reasoning

57 items

RESEARCHarXiv CS.AI·4/22/2026

From Natural Language to Executable Narsese: A Neuro-Symbolic Benchmark and Pipeline for Reasoning with NARS

Dieses Papier stellt ein neuro-symbolisches Framework vor, um naturwissenschaftliche Argumentationsprobleme in ausführbares Narsese zu übersetzen, basierend auf Prädikatenlogik. Es präsentiert NARS-Reasoning-v0.1, einen neuen Benchmark mit Argumentationsproblemen, deren formalen Darstellungen und Wahrheitslabels zur Bewertung von Argumentationsfähigkeiten.

LLMs Reasoning Benchmarks Neuro-symbolic AI

ARTICLEDEV.to AI·vor 27T

DeepMind’s CEO Says AGI May Be ~4 Years Away. The Last Three Missing Pieces Are Not What Most People Think.

Demis Hassabis, CEO von Google DeepMind, prognostiziert, dass AGI um 2030 eintreffen könnte und nennt drei kritische Lücken in der aktuellen KI: kontinuierliches Lernen, langfristiges Denken und echtes Gedächtnis. Er beschreibt heutige Modelle als "ungleiche Intelligenz", mit hohen Leistungen neben elementaren Fehlern.

DeepMind AGI Reasoning AI development

DOCDEV.to AI·4/25/2026

Tian AI Thinker: Building a Three-Layer LLM Reasoning Engine

Der Tian AI Thinker ist der kognitive Kern von Tian AI, der ein lokales Qwen2.5-1.5B-Modell über einen ThinkerRouter orchestriert. Dieser Router leitet Anfragen an drei verschiedene Denkmodi (Fast, CoT und Deep) weiter, die jeweils für unterschiedliche Anfragetypen optimiert sind.

AI architecture Qwen2.5 Reasoning LLM

RESEARCHDEV.to AI·vor 17T

The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

Diese Forschung untersucht den Entropiemechanismus des Reinforcement Learning, insbesondere dessen Anwendung zur Verbesserung der Denkfähigkeiten in Sprachmodellen. Es wird erforscht, wie Entropie genutzt werden kann, um den Lernprozess und die Entscheidungsfindung für ein robusteres Sprachmodell-Denken zu optimieren.

language models reinforcement learning learning Reasoning

ARTICLEDEV.to AI·vor 19T

Apple Paper Argues LLMs Show 'Illusion of Thinking'

Ein Apple-Papier mit dem Titel „The Illusion of Thinking“ argumentiert, dass große Sprachmodelle (LLMs) kein echtes Denkvermögen besitzen, sondern sich nur auf ausgefeilte statistische Mustererkennung verlassen. Unter der Leitung von Mehrdad Farajtabar kritisiert die Studie die Behauptungen von Anbietern wie GPT-4 und Claude und weist auf Versagen bei formalen Denkaufgaben hin, die Kompositionalität erfordern.

Apple machine learning Reasoning AI

RESEARCHarXiv CS.LG·4/15/2026

When Reasoning Models Hurt Behavioral Simulation: A Solver-Sampler Mismatch in Multi-Agent LLM Negotiation

Diese Arbeit untersucht, wie verbessertes Denkvermögen in Sprachmodellen die Genauigkeit von Verhaltenssimulationen beeinträchtigen kann, insbesondere wenn das Ziel darin besteht, begrenzt rationales Verhalten abzubilden statt ein strategisches Problem zu lösen. Die Autoren identifizieren ein „Solver-Sampler-Mismatch“, bei dem LLMs überoptimieren, kompromissorientiertes Verhalten kollabieren lassen und zu Diversität ohne Treue in den Ergebnissen führen.

LLMs Strategic Negotiation Behavioral Simulation Reasoning

RESEARCHarXiv CS.CL·4/15/2026

Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration

Diese Forschung stellt CURE vor, ein neuartiges Framework zur Verbesserung der Faktizität von Langform-Generierungen durch LLMs, indem es ihnen beibringt, Unsicherheit auf Behauptungsebene zu bewerten. Es überwindet die Tendenz von Modellen, unzutreffende Behauptungen selbstbewusst zu äußern, und konzentriert sich stattdessen auf eine granulare Unsicherheitskalibrierung.

LLMs hallucination uncertainty calibration Reasoning

RESEARCHarXiv CS.LG·4/14/2026

Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model

Diese Forschung untersucht Deliberative Alignment in LLMs, eine Methode zur Verbesserung der Sicherheit durch die Destillation von Denkfähigkeiten aus stärkeren Modellen. Es wird eine Ausrichtungslücke zwischen Lehrer- und Schülermodellen aufgedeckt, da letztere trotz des Erlernens fortgeschrittener Denkprozesse unsichere Verhaltensweisen des Basismodells beibehalten können; die Arbeit schlägt eine BoN-Sampling-Methode zur Bewältigung dieser Probleme vor.

Model Alignment LLMs Deliberative Alignment Reasoning

RESEARCHarXiv CS.CL·5/5/2026

DIAGRAMS: A Review Framework for Reasoning-Level Attribution in Diagram QA

DIAGRAMS ist ein Überprüfungs-Framework für die Attributierung auf Argumentationsebene bei Diagramm-Frage-Antwort-Systemen (Diagram QA). Es entkoppelt die Schnittstellenlogik von datensatzspezifischen Formaten durch ein Metaschema und Adapter, was die Evidenzauswahl und -generierung erleichtert.

attribution Diagram QA machine learning computer vision

RESEARCHarXiv CS.AI·5/9/2026

BALAR : A Bayesian Agentic Loop for Active Reasoning

Dieses Papier stellt BALAR (Bayesian Agentic Loop for Active Reasoning) vor, einen aufgabenunabhängigen Outer-Loop-Algorithmus, der eine strukturierte Interaktion über mehrere Runden zwischen einem LLM-Agenten und einem Benutzer ermöglicht. BALAR pflegt eine strukturierte Überzeugung über latente Zustände, wählt klärende Fragen durch Maximierung der erwarteten gegenseitigen Information und übertrifft Baselines in verschiedenen Reasoning-Benchmarks signifikant.

LLMs interactive AI Reasoning Bayesian models

RESEARCHarXiv CS.LG·4/27/2026

Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning

Diese Studie untersucht die Notwendigkeit von gelernten Speicher-Tokens als Berechnungskladde für Universal Transformers mit adaptiver Berechnungszeit (ACT) auf einem kombinatorischen Denk-Benchmark. Sie zeigt, dass Speicher-Tokens empirisch notwendig für eine nicht-triviale Leistung sind und identifiziert eine scharfe untere Schwelle für die optimale Anzahl sowie eine häufige Router-Initialisierungsfalle.

neural networks deep learning memory Reasoning

RESEARCHarXiv CS.LG·4/9/2026

RAGEN-2: Reasoning Collapse in Agentic RL

Este estudo introduz o conceito de 'colapso de template', uma falha em agentes LLM de múltiplas interações onde a resposta se torna agnóstica à entrada, mesmo com entropia estável. Propõe a Informação Mútua (MI) como uma métrica superior à entropia para diagnosticar a qualidade do raciocínio, correlacionando-se mais fortemente com o desempenho final.

LLMs reinforcement learning Reasoning Evaluation Metrics

RESEARCHarXiv CS.AI·4/30/2026

Grounding vs. Compositionality: On the Non-Complementarity of Reasoning in Neuro-Symbolic Systems

Diese Arbeit stellt die Annahme in Frage, dass kompositorisches Denken als Nebenprodukt der Symbolfundierung in neuro-symbolischen KI entsteht. Sie führt die $i$LTN-Architektur ein und zeigt, dass Modelle, die nur auf Fundierung trainiert wurden, nicht generalisieren, während ein gemeinsames Training auf Wahrnehmungsfundierung und mehrstufiges Schlussfolgern entscheidend ist.

Compositional Generalization Reasoning AI Architectures Symbol Grounding

RESEARCHarXiv CS.CL·4/27/2026

Incentivizing Neuro-symbolic Language-based Reasoning in VLMs via Reinforcement Learning

Diese Arbeit untersucht neuro-symbolisches Sprach-Reasoning in VLMs, wobei Reinforcement Learning zur Verbesserung analytischer Fähigkeiten und Effizienz eingesetzt wird. Sie erzielte eine Genauigkeitssteigerung von 3,33% auf einem Vision-Language-Datensatz und reduzierte die Reasoning-Token um 75%.

Vision-Language Models reinforcement learning Reasoning Neuro-symbolic AI

RESEARCHarXiv CS.CL·4/8/2026

TDA-RC: Task-Driven Alignment for Knowledge-Based Reasoning Chains in Large Language Models

Este artigo propõe um método baseado em topologia para otimizar cadeias de raciocínio em LLMs, visando superar lacunas lógicas e custos elevados. Ele quantifica características estruturais de CoT, ToT e GoT usando homologia persistente para aprimorar o paradigma CoT.

LLMs Chain-of-Thought Reasoning Tree-of-Thoughts

RESEARCHarXiv CS.AI·vor 24T

Enhanced and Efficient Reasoning in Large Learning Models

Dieses Papier schlägt eine effiziente und prinzipienbasierte Methode zur Verbesserung des Denkvermögens in großen Sprachmodellen vor, um das derzeit mangelnde Vertrauen in die produzierte Textqualität zu adressieren. Die Methode umfasst eine Vorverarbeitungsphase mit einem Unären Relationalen Integracode, gefolgt von einem optimierten maschinellen Lernprozess.

model efficiency machine learning Reasoning data preprocessing

RESEARCHarXiv CS.CL·4/24/2026

TRACES: Tagging Reasoning Steps for Adaptive Cost-Efficient Early-Stopping

Dieses Papier stellt TRACES vor, ein leichtgewichtiges Framework zur Optimierung von Sprachbegründungsmodellen (LRMs) durch das Echtzeit-Tagging von Begründungsschritten. Es ermöglicht ein adaptives, kosteneffizientes vorzeitiges Beenden von LRM-Inferenzen und adressiert deren derzeitige Ineffizienz und die Überproduktion von Verifizierungsschritten.

LLMs early stopping Reasoning Inference Optimization

RESEARCHarXiv CS.AI·vor 17T

MindLoom: Composing Thought Modes for Frontier-Level Reasoning Data Synthesis

MindLoom ist ein Framework zur Synthese von Reasoning-Daten auf Frontier-Ebene, das die begrenzte Diversität und instabile Schwierigkeitskontrolle bestehender Methoden angeht. Es zerlegt Problemlösungen in „Thought Mode Chains“ und trainiert ein Retrieval-Modell, um den Reasoning-Prozess zu leiten.

data synthesis Thought Modes LLMs AI frameworks

RESEARCHarXiv CS.CL·5/7/2026

Adapt to Thrive! Adaptive Power-Mean Policy Optimization for Improved LLM Reasoning

Diese Forschung stellt Adaptive Power-Mean Policy Optimization (APMPO) vor, um die Schlussfolgerungsfähigkeiten von Großen Sprachmodellen (LLMs) mittels RLVR zu verbessern. APMPO kombiniert ein verallgemeinertes Potenzmittel-Ziel und adaptives Clipping, um die Lerndynamik und Leistung zu optimieren.

Policy optimization LLMs reinforcement learning machine learning

RESEARCHarXiv CS.CL·5/7/2026

Free Energy-Driven Reinforcement Learning with Adaptive Advantage Shaping for Unsupervised Reasoning in LLMs

FREIA ist ein neuartiger Reinforcement-Learning-Algorithmus, der LLMs für unbeaufsichtigtes Denken verbessert und die mangelnde Anpassungsfähigkeit bestehender Methoden adressiert. Er nutzt Free Energy-Driven Reward (FER), um Konsens und Exploration auszugleichen, sowie Adaptive Advantage Shaping (AAS), um Lernsignale anzupassen. FREIA übertrifft unbeaufsichtigte Baselines in verschiedenen Denkaufgaben, insbesondere im mathematischen Denken.

LLMs reinforcement learning AI algorithms Reasoning