← heapsort-ai

Reasoning

57 items

RESEARCHarXiv CS.AI·4/22/2026

From Natural Language to Executable Narsese: A Neuro-Symbolic Benchmark and Pipeline for Reasoning with NARS

Dieses Papier stellt ein neuro-symbolisches Framework vor, um naturwissenschaftliche Argumentationsprobleme in ausführbares Narsese zu übersetzen, basierend auf Prädikatenlogik. Es präsentiert NARS-Reasoning-v0.1, einen neuen Benchmark mit Argumentationsproblemen, deren formalen Darstellungen und Wahrheitslabels zur Bewertung von Argumentationsfähigkeiten.

27
ARTICLEDEV.to AI·vor 19T

Apple Paper Argues LLMs Show 'Illusion of Thinking'

Ein Apple-Papier mit dem Titel „The Illusion of Thinking“ argumentiert, dass große Sprachmodelle (LLMs) kein echtes Denkvermögen besitzen, sondern sich nur auf ausgefeilte statistische Mustererkennung verlassen. Unter der Leitung von Mehrdad Farajtabar kritisiert die Studie die Behauptungen von Anbietern wie GPT-4 und Claude und weist auf Versagen bei formalen Denkaufgaben hin, die Kompositionalität erfordern.

27
RESEARCHarXiv CS.LG·4/15/2026

When Reasoning Models Hurt Behavioral Simulation: A Solver-Sampler Mismatch in Multi-Agent LLM Negotiation

Diese Arbeit untersucht, wie verbessertes Denkvermögen in Sprachmodellen die Genauigkeit von Verhaltenssimulationen beeinträchtigen kann, insbesondere wenn das Ziel darin besteht, begrenzt rationales Verhalten abzubilden statt ein strategisches Problem zu lösen. Die Autoren identifizieren ein „Solver-Sampler-Mismatch“, bei dem LLMs überoptimieren, kompromissorientiertes Verhalten kollabieren lassen und zu Diversität ohne Treue in den Ergebnissen führen.

27
RESEARCHarXiv CS.CL·4/15/2026

Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration

Diese Forschung stellt CURE vor, ein neuartiges Framework zur Verbesserung der Faktizität von Langform-Generierungen durch LLMs, indem es ihnen beibringt, Unsicherheit auf Behauptungsebene zu bewerten. Es überwindet die Tendenz von Modellen, unzutreffende Behauptungen selbstbewusst zu äußern, und konzentriert sich stattdessen auf eine granulare Unsicherheitskalibrierung.

27
RESEARCHarXiv CS.LG·4/14/2026

Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model

Diese Forschung untersucht Deliberative Alignment in LLMs, eine Methode zur Verbesserung der Sicherheit durch die Destillation von Denkfähigkeiten aus stärkeren Modellen. Es wird eine Ausrichtungslücke zwischen Lehrer- und Schülermodellen aufgedeckt, da letztere trotz des Erlernens fortgeschrittener Denkprozesse unsichere Verhaltensweisen des Basismodells beibehalten können; die Arbeit schlägt eine BoN-Sampling-Methode zur Bewältigung dieser Probleme vor.

27
RESEARCHarXiv CS.AI·5/9/2026

BALAR : A Bayesian Agentic Loop for Active Reasoning

Dieses Papier stellt BALAR (Bayesian Agentic Loop for Active Reasoning) vor, einen aufgabenunabhängigen Outer-Loop-Algorithmus, der eine strukturierte Interaktion über mehrere Runden zwischen einem LLM-Agenten und einem Benutzer ermöglicht. BALAR pflegt eine strukturierte Überzeugung über latente Zustände, wählt klärende Fragen durch Maximierung der erwarteten gegenseitigen Information und übertrifft Baselines in verschiedenen Reasoning-Benchmarks signifikant.

27
RESEARCHarXiv CS.LG·4/27/2026

Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning

Diese Studie untersucht die Notwendigkeit von gelernten Speicher-Tokens als Berechnungskladde für Universal Transformers mit adaptiver Berechnungszeit (ACT) auf einem kombinatorischen Denk-Benchmark. Sie zeigt, dass Speicher-Tokens empirisch notwendig für eine nicht-triviale Leistung sind und identifiziert eine scharfe untere Schwelle für die optimale Anzahl sowie eine häufige Router-Initialisierungsfalle.

27
RESEARCHarXiv CS.LG·4/9/2026

RAGEN-2: Reasoning Collapse in Agentic RL

Este estudo introduz o conceito de 'colapso de template', uma falha em agentes LLM de múltiplas interações onde a resposta se torna agnóstica à entrada, mesmo com entropia estável. Propõe a Informação Mútua (MI) como uma métrica superior à entropia para diagnosticar a qualidade do raciocínio, correlacionando-se mais fortemente com o desempenho final.

27
RESEARCHarXiv CS.AI·4/30/2026

Grounding vs. Compositionality: On the Non-Complementarity of Reasoning in Neuro-Symbolic Systems

Diese Arbeit stellt die Annahme in Frage, dass kompositorisches Denken als Nebenprodukt der Symbolfundierung in neuro-symbolischen KI entsteht. Sie führt die $i$LTN-Architektur ein und zeigt, dass Modelle, die nur auf Fundierung trainiert wurden, nicht generalisieren, während ein gemeinsames Training auf Wahrnehmungsfundierung und mehrstufiges Schlussfolgern entscheidend ist.

27
RESEARCHarXiv CS.AI·vor 24T

Enhanced and Efficient Reasoning in Large Learning Models

Dieses Papier schlägt eine effiziente und prinzipienbasierte Methode zur Verbesserung des Denkvermögens in großen Sprachmodellen vor, um das derzeit mangelnde Vertrauen in die produzierte Textqualität zu adressieren. Die Methode umfasst eine Vorverarbeitungsphase mit einem Unären Relationalen Integracode, gefolgt von einem optimierten maschinellen Lernprozess.

27
RESEARCHarXiv CS.CL·4/24/2026

TRACES: Tagging Reasoning Steps for Adaptive Cost-Efficient Early-Stopping

Dieses Papier stellt TRACES vor, ein leichtgewichtiges Framework zur Optimierung von Sprachbegründungsmodellen (LRMs) durch das Echtzeit-Tagging von Begründungsschritten. Es ermöglicht ein adaptives, kosteneffizientes vorzeitiges Beenden von LRM-Inferenzen und adressiert deren derzeitige Ineffizienz und die Überproduktion von Verifizierungsschritten.

27
RESEARCHarXiv CS.CL·5/7/2026

Free Energy-Driven Reinforcement Learning with Adaptive Advantage Shaping for Unsupervised Reasoning in LLMs

FREIA ist ein neuartiger Reinforcement-Learning-Algorithmus, der LLMs für unbeaufsichtigtes Denken verbessert und die mangelnde Anpassungsfähigkeit bestehender Methoden adressiert. Er nutzt Free Energy-Driven Reward (FER), um Konsens und Exploration auszugleichen, sowie Adaptive Advantage Shaping (AAS), um Lernsignale anzupassen. FREIA übertrifft unbeaufsichtigte Baselines in verschiedenen Denkaufgaben, insbesondere im mathematischen Denken.

27