AI Reasoning

20 items

RESEARCHarXiv CS.AI·vor 20Std

Improving Multimodal Reasoning via Worst Dimension Optimization

Multimodales Denken erfordert die Integrität über verschiedene Einschränkungen hinweg, wie visuelle Erdung und logische Konsistenz. Aktuelle Prozess-Belohnungsmodelle verdecken oft individuelle Dimensionsfehler, indem sie Faktoren gleich gewichten, was den gesamten Denkprozess beeinträchtigt.

Optimization multimodal AI machine learning AI Reasoning

RESEARCH↑ trendingReddit r/MachineLearning·4/13/2026

Thinking Deeper, Not Longer: Depth-Recurrent Transformers for Compositional Generalization [R]

Dieser Inhalt bespricht ein Forschungspapier über Depth-Recurrent Transformer und deren Erkenntnisse zur kompositionellen und Out-of-Distribution-Generalisierung. Es untersucht, wie Zwischenschritt-Supervision echtes Schlussfolgern in KI-Modellen behindern und sie übermäßig auf statistische Heuristiken verlassen lassen kann, ein Konzept, das auch auf Fundamentmodelle und die menschliche Intuition erweitert wird.

OOD Generalization Compositional Generalization AI Reasoning Intermediate Supervision

RESEARCHDEV.to AI·4/22/2026

Towards Large Reasoning Models: A Survey of Reinforced Reasoning with LargeLanguage Models

Diese Studie untersucht große Schlussfolgerungsmodelle, insbesondere die Anwendung verstärkter Schlussfolgerungstechniken auf große Sprachmodelle. Sie bietet einen umfassenden Überblick über aktuelle Methoden und Fortschritte zur Verbesserung der Schlussfolgerungsfähigkeiten von LLMs.

Survey reinforced learning AI Reasoning large language models

RESEARCHarXiv CS.CL·vor 13T

Why LLMs Hallucinate on Structured Knowledge: A Mechanistic Analysis of Reasoning over Linearized Representations

Die Studie untersucht, warum LLMs bei der Argumentation über linearisiertes strukturiertes Wissen halluzinieren. Sie zeigt, dass Halluzinationen auf systematische interne Dynamiken zurückzuführen sind, wie die Konzentration der Aufmerksamkeit auf Shortcut-Hinweise und das Versagen von Feed-Forward-Schichten, das bereitgestellte Wissen zu verankern.

neural networks hallucination Knowledge Representation AI Reasoning

RESEARCHarXiv CS.AI·vor 26T

CHAL: Council of Hierarchical Agentic Language

CHAL (Council of Hierarchical Agentic Language) ist ein neues multiagentisches dialektisches Framework zur Optimierung von Überzeugungen in widerlegbaren Domänen. Es adressiert aktuelle Einschränkungen der Multi-Agenten-Debatte für LLM-Argumentation, wobei widerlegbare Argumentation als Motor für die Überzeugungsoptimierung behandelt wird.

dialectic frameworks LLMs belief optimization AI Reasoning

RESEARCHarXiv CS.AI·4/20/2026

LLM Reasoning Is Latent, Not the Chain of Thought

Dieses Positionspapier argumentiert, dass das LLM-Schlussfolgern als latente Zustandsentwicklung und nicht als oberflächliche, getreue Gedankenketten (CoT) untersucht werden sollte. Es formalisiert drei konkurrierende Hypothesen über das primäre Objekt des Schlussfolgerns, was Auswirkungen auf Treue, Interpretierbarkeit und Benchmarks hat.

Chain-of-Thought interpretability AI Reasoning large language models

RESEARCHarXiv CS.AI·vor 29T

When Does Critique Improve AI-Assisted Theoretical Physics? SCALAR: Structured Critic--Actor Loop for Agentic Reasoning

Dieses Papier stellt SCALAR (Structured Critic--Actor Loop for AI Reasoning) vor, eine Actor--Critic--Judge-Pipeline, die auf theoretische Physikprobleme angewendet wird. Es untersucht, wie die Interaktion zwischen Forschern und KI-Agenten die Ergebnisse bei physikalischen Denkaufgaben beeinflusst und zeigt, dass mehrstufige Dialoge Einzelschussversuche erheblich verbessern.

theoretical physics AI Reasoning Agentic AI large language models

ARTICLEDEV.to AI·4/13/2026

AI Agent Black Boxes Have Two Layers — Technical Limits and Business Incentives

Der Text untersucht, wie sich Chain-of-Thought (CoT) von einer externen Prompt-Engineering-Technik zu einer internen Denkfähigkeit in fortgeschrittenen KI-Modellen entwickelt hat. Forschungsergebnisse zeigen, dass die Anwendung externer CoT auf diese Modelle nun ineffektiv ist, da der Denkprozess internalisiert wurde.

prompt engineering Chain-of-Thought AI Reasoning AI

RESEARCHarXiv CS.AI·4/20/2026

LACE: Lattice Attention for Cross-thread Exploration

LACE ist ein neues Framework, das es Large Language Models (LLMs) ermöglicht, Erkenntnisse über mehrere parallele Denkpfade hinweg zu koordinieren und auszutauschen, indem es Cross-Thread-Attention nutzt. Es verwendet eine synthetische Datenpipeline, um kollaborative Fehlerkorrektur zu lehren, was zu einer Verbesserung der Argumentationsgenauigkeit um über 7 Punkte führt.

synthetic data LLMs attention mechanisms AI Reasoning

ARTICLEDEV.to AI·vor 20T

Judea Pearl's Ladder of Causation and the Limits of LLM Reasoning

Dieser Artikel untersucht die grundlegenden Einschränkungen von Großen Sprachmodellen (LLMs) im kausalen Denken, unter Bezugnahme auf Judea Pearls Kausalitätstreppe. Er hebt hervor, dass LLMs oft auf der untersten Ebene der Assoziation agieren und es versäumen, wahre Ursachen zu identifizieren, stattdessen Korrelationen zu beheben, was häufige Fehler bei KI-Tools erklärt.

AI limitations Judea Pearl causality AI Reasoning

RESEARCHarXiv CS.AI·4/22/2026

AI scientists produce results without reasoning scientifically

LLM-basierte Systeme betreiben autonome wissenschaftliche Forschung, halten sich aber nicht an wissenschaftliche Erkenntnisnormen und ignorieren Beweise in 68% der Fälle. Eine Studie mit 25.000 Durchläufen ergab, dass die Basemodelle die primäre Determinante für Leistung und Verhalten der Agenten sind.

LLMs AI Reasoning AI agents scientific research

RESEARCHarXiv CS.AI·vor 6T

Thinking Past the Answer: Evaluating Harmful Overthinking in Large Reasoning Models

Dieser Artikel bewertet "schädliches Überdenken" in großen Schlussfolgerungsmodellen, bei dem fortgesetztes Nachdenken nach einer korrekten Antwort die Flugbahn destabilisieren kann. Es wird ein Protokoll eingeführt, um redundantes von schädlichem Überdenken zu unterscheiden, wobei Probleme in multimodalen Benchmarks festgestellt werden.

multimodal AI Overthinking Model Evaluation AI Reasoning

RESEARCHarXiv CS.CL·4/30/2026

CogRAG+: Cognitive-Level Guided Diagnosis and Remediation of Memory and Reasoning Deficiencies in Professional Exam QA

CogRAG+ ist ein trainingsfreies Framework zur Diagnose und Behebung von Gedächtnis- und Denkdefiziten in großen Sprachmodellen bei professionellen Prüfungsfragen. Es entkoppelt und richtet Abruf und Schlussfolgerung an menschlichen kognitiven Hierarchien aus, indem es Reinforced Retrieval und kognitionsgeschichtetes Constrained Reasoning einsetzt, um Genauigkeit und Konsistenz zu verbessern.

Retrieval Augmented Generation natural language processing AI Reasoning large language models

RESEARCHarXiv CS.AI·vor 29T

GraphDC: A Divide-and-Conquer Multi-Agent System for Scalable Graph Algorithm Reasoning

Dieses Papier stellt GraphDC vor, ein Divide-and-Conquer-Multi-Agenten-System, das zur Verbesserung der Graphenalgorithmus-Argumentation in großen Sprachmodellen (LLMs) entwickelt wurde. Es verbessert die Leistung, indem es große Graphen in kleinere Untergraphen für spezialisierte Agenten zerlegt, wobei ein Master-Agent die Ergebnisse integriert, was zu besserer Skalierbarkeit und Robustheit führt.

LLMs scalable AI AI Reasoning multi-agent systems

RESEARCHarXiv CS.CL·vor 26T

Correct Answers from Sound Reasoning: Verifiable Process Supervision for Language Models

Dieses Papier schlägt die Verifizierbare Prozessüberwachung (VPS) vor, ein Post-Training-Framework zur gemeinsamen Optimierung der Vorhersagegenauigkeit und der Argumentationsqualität von Sprachmodellen. VPS verwendet überwachtes Fine-Tuning, um ein strukturiertes Argumentationsformat zu induzieren, das Zwischenbehauptungen anhand von Ground-Truth-Signalen mit adaptiver Belohnungsgewichtung bewertet.

language models reinforcement learning AI training verifiable AI

RESEARCHarXiv CS.AI·vor 27T

Do Vision-Language-Models show human-like logical problem-solving capability in point and click puzzle games?

Dieses Papier stellt VLATIM vor, einen neuen Benchmark zur Bewertung der menschenähnlichen logischen Problemlösungsfähigkeiten von Vision-Language-Modellen (VLMs) in Point-and-Click-Physik-Puzzlespielen. Es zeigt eine signifikante Diskrepanz zwischen Denk- und Ausführungsfähigkeiten bei großen proprietären Modellen bei der Lösung des Spiels The Incredible Machine 2 auf.

puzzle games Vision-Language Models interactive AI Benchmarking

RESEARCHarXiv CS.AI·vor 27T

The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes

On-Policy-Destillation (OPD) und On-Policy-Selbst-Destillation (OPSD) sind vielversprechende Post-Training-Methoden für große Sprachmodelle, deren Wirksamkeit jedoch gemischt ist. Diese Forschung untersucht empirisch, wann und warum sie funktionieren oder scheitern, und identifiziert Empfindlichkeiten bei der Lehrerwahl und Probleme mit privilegierten Informationen.

LLMs distillation learning machine learning

RESEARCHarXiv CS.CL·vor 28T

AIPO: : Learning to Reason from Active Interaction

AIPO ist ein neuartiger Reinforcement-Learning-Framework, der das LLM-Reasoning durch aktive Multi-Agenten-Interaktion während der Exploration verbessert. Es adressiert die Einschränkungen bestehender RL-Algorithmen, die durch die inhärente Fähigkeitsgrenze des Policy-Modells begrenzt sind und auf ineffiziente Trajektorienführung angewiesen sind.

LLMs reinforcement learning learning AI Reasoning

RESEARCHarXiv CS.AI·5/6/2026

CreativityBench: Evaluating Agent Creative Reasoning via Affordance-Based Tool Repurposing

Dieses Papier stellt CreativityBench vor, einen neuen Benchmark zur Bewertung der kreativen Denkfähigkeiten von LLMs durch affordance-basiertes Werkzeug-Repurposing. Es beschreibt den Aufbau einer umfangreichen Affordanz-Wissensbasis und die Generierung von 14 Tausend Aufgaben, die nicht-offensichtliche, aber physikalisch plausible Lösungen erfordern.

AI Creativity Benchmarking AI Reasoning tool use

RESEARCHarXiv CS.AI·vor 21T

TTE-Flash: Accelerating Reasoning-based Multimodal Representations via Think-Then-Embed Tokens

Diese Arbeit schlägt TTE-Flash vor, eine Methode zur Beschleunigung von reasoning-basierten multimodalen Repräsentationen, indem explizites Chain-of-Thought (CoT) durch latente Denk-Token ersetzt wird. Ziel ist es, hochleistungsfähige, reasoning-bewusste Repräsentationen zu konstanten Inferenzkosten zu erreichen.

neural networks multimodal AI machine learning Computational Efficiency