← heapsort-ai

AI Reasoning

20 items

RESEARCH↑ trendingReddit r/MachineLearning·4/13/2026

Thinking Deeper, Not Longer: Depth-Recurrent Transformers for Compositional Generalization [R]

Dieser Inhalt bespricht ein Forschungspapier über Depth-Recurrent Transformer und deren Erkenntnisse zur kompositionellen und Out-of-Distribution-Generalisierung. Es untersucht, wie Zwischenschritt-Supervision echtes Schlussfolgern in KI-Modellen behindern und sie übermäßig auf statistische Heuristiken verlassen lassen kann, ein Konzept, das auch auf Fundamentmodelle und die menschliche Intuition erweitert wird.

42
RESEARCHarXiv CS.CL·vor 13T

Why LLMs Hallucinate on Structured Knowledge: A Mechanistic Analysis of Reasoning over Linearized Representations

Die Studie untersucht, warum LLMs bei der Argumentation über linearisiertes strukturiertes Wissen halluzinieren. Sie zeigt, dass Halluzinationen auf systematische interne Dynamiken zurückzuführen sind, wie die Konzentration der Aufmerksamkeit auf Shortcut-Hinweise und das Versagen von Feed-Forward-Schichten, das bereitgestellte Wissen zu verankern.

29
RESEARCHarXiv CS.AI·vor 29T

When Does Critique Improve AI-Assisted Theoretical Physics? SCALAR: Structured Critic--Actor Loop for Agentic Reasoning

Dieses Papier stellt SCALAR (Structured Critic--Actor Loop for AI Reasoning) vor, eine Actor--Critic--Judge-Pipeline, die auf theoretische Physikprobleme angewendet wird. Es untersucht, wie die Interaktion zwischen Forschern und KI-Agenten die Ergebnisse bei physikalischen Denkaufgaben beeinflusst und zeigt, dass mehrstufige Dialoge Einzelschussversuche erheblich verbessern.

28
RESEARCHarXiv CS.AI·4/20/2026

LACE: Lattice Attention for Cross-thread Exploration

LACE ist ein neues Framework, das es Large Language Models (LLMs) ermöglicht, Erkenntnisse über mehrere parallele Denkpfade hinweg zu koordinieren und auszutauschen, indem es Cross-Thread-Attention nutzt. Es verwendet eine synthetische Datenpipeline, um kollaborative Fehlerkorrektur zu lehren, was zu einer Verbesserung der Argumentationsgenauigkeit um über 7 Punkte führt.

27
ARTICLEDEV.to AI·vor 20T

Judea Pearl's Ladder of Causation and the Limits of LLM Reasoning

Dieser Artikel untersucht die grundlegenden Einschränkungen von Großen Sprachmodellen (LLMs) im kausalen Denken, unter Bezugnahme auf Judea Pearls Kausalitätstreppe. Er hebt hervor, dass LLMs oft auf der untersten Ebene der Assoziation agieren und es versäumen, wahre Ursachen zu identifizieren, stattdessen Korrelationen zu beheben, was häufige Fehler bei KI-Tools erklärt.

27
RESEARCHarXiv CS.AI·vor 6T

Thinking Past the Answer: Evaluating Harmful Overthinking in Large Reasoning Models

Dieser Artikel bewertet "schädliches Überdenken" in großen Schlussfolgerungsmodellen, bei dem fortgesetztes Nachdenken nach einer korrekten Antwort die Flugbahn destabilisieren kann. Es wird ein Protokoll eingeführt, um redundantes von schädlichem Überdenken zu unterscheiden, wobei Probleme in multimodalen Benchmarks festgestellt werden.

27
RESEARCHarXiv CS.CL·4/30/2026

CogRAG+: Cognitive-Level Guided Diagnosis and Remediation of Memory and Reasoning Deficiencies in Professional Exam QA

CogRAG+ ist ein trainingsfreies Framework zur Diagnose und Behebung von Gedächtnis- und Denkdefiziten in großen Sprachmodellen bei professionellen Prüfungsfragen. Es entkoppelt und richtet Abruf und Schlussfolgerung an menschlichen kognitiven Hierarchien aus, indem es Reinforced Retrieval und kognitionsgeschichtetes Constrained Reasoning einsetzt, um Genauigkeit und Konsistenz zu verbessern.

27
RESEARCHarXiv CS.AI·vor 29T

GraphDC: A Divide-and-Conquer Multi-Agent System for Scalable Graph Algorithm Reasoning

Dieses Papier stellt GraphDC vor, ein Divide-and-Conquer-Multi-Agenten-System, das zur Verbesserung der Graphenalgorithmus-Argumentation in großen Sprachmodellen (LLMs) entwickelt wurde. Es verbessert die Leistung, indem es große Graphen in kleinere Untergraphen für spezialisierte Agenten zerlegt, wobei ein Master-Agent die Ergebnisse integriert, was zu besserer Skalierbarkeit und Robustheit führt.

27
RESEARCHarXiv CS.CL·vor 26T

Correct Answers from Sound Reasoning: Verifiable Process Supervision for Language Models

Dieses Papier schlägt die Verifizierbare Prozessüberwachung (VPS) vor, ein Post-Training-Framework zur gemeinsamen Optimierung der Vorhersagegenauigkeit und der Argumentationsqualität von Sprachmodellen. VPS verwendet überwachtes Fine-Tuning, um ein strukturiertes Argumentationsformat zu induzieren, das Zwischenbehauptungen anhand von Ground-Truth-Signalen mit adaptiver Belohnungsgewichtung bewertet.

27
RESEARCHarXiv CS.AI·vor 27T

Do Vision-Language-Models show human-like logical problem-solving capability in point and click puzzle games?

Dieses Papier stellt VLATIM vor, einen neuen Benchmark zur Bewertung der menschenähnlichen logischen Problemlösungsfähigkeiten von Vision-Language-Modellen (VLMs) in Point-and-Click-Physik-Puzzlespielen. Es zeigt eine signifikante Diskrepanz zwischen Denk- und Ausführungsfähigkeiten bei großen proprietären Modellen bei der Lösung des Spiels The Incredible Machine 2 auf.

27
RESEARCHarXiv CS.AI·vor 27T

The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes

On-Policy-Destillation (OPD) und On-Policy-Selbst-Destillation (OPSD) sind vielversprechende Post-Training-Methoden für große Sprachmodelle, deren Wirksamkeit jedoch gemischt ist. Diese Forschung untersucht empirisch, wann und warum sie funktionieren oder scheitern, und identifiziert Empfindlichkeiten bei der Lehrerwahl und Probleme mit privilegierten Informationen.

27
RESEARCHarXiv CS.AI·5/6/2026

CreativityBench: Evaluating Agent Creative Reasoning via Affordance-Based Tool Repurposing

Dieses Papier stellt CreativityBench vor, einen neuen Benchmark zur Bewertung der kreativen Denkfähigkeiten von LLMs durch affordance-basiertes Werkzeug-Repurposing. Es beschreibt den Aufbau einer umfangreichen Affordanz-Wissensbasis und die Generierung von 14 Tausend Aufgaben, die nicht-offensichtliche, aber physikalisch plausible Lösungen erfordern.

27
RESEARCHarXiv CS.AI·vor 21T

TTE-Flash: Accelerating Reasoning-based Multimodal Representations via Think-Then-Embed Tokens

Diese Arbeit schlägt TTE-Flash vor, eine Methode zur Beschleunigung von reasoning-basierten multimodalen Repräsentationen, indem explizites Chain-of-Thought (CoT) durch latente Denk-Token ersetzt wird. Ziel ist es, hochleistungsfähige, reasoning-bewusste Repräsentationen zu konstanten Inferenzkosten zu erreichen.

27