← heapsort-ai

Reasoning

57 items

RESEARCHarXiv CS.CL·vor 1T

How Language Models Fail: Token-Level Signatures of Committed and Persistent Reasoning Failures

Fehler im Sprachmodell-Denken entstehen durch unterschiedliche Prozesse, die identifizierbare Token-Level-Signaturen hinterlassen. Diese Fehler werden als „festgelegter Fehler“ oder „anhaltende Unsicherheit“ charakterisiert, und das Verständnis dieser Signaturen hilft, fehlerhafte von erfolgreichen Vervollständigungen in verschiedenen Konfigurationen zu unterscheiden.

40
RESEARCHDEV.to AI·vor 14T

Meta-Stanford Survey: Code as Agent Harness Improves AI Reasoning

Eine Umfrage von Meta, Stanford und Illinois deutet darauf hin, dass KI-Agenten besser funktionieren, wenn Code ihre Hauptarbeitsebene ist, ein Konzept, das als „Agent Harness“ bezeichnet wird. Dieser Ansatz verlagert den Fokus der KI von der reinen Textvorhersage auf ausführbares Denken, wodurch die Fähigkeit verbessert wird, komplexe Aufgaben zu bewältigen und Fehler zu minimieren.

31
RESEARCHarXiv CS.LG·4/13/2026

Robust Reasoning Benchmark

Diese Studie schlägt eine neue Störungs-Pipeline zur Bewertung der Robustheit des LLM-Schlussfolgerns vor, die auf den AIME 2024 Datensatz angewendet wird. Während Spitzenmodelle Widerstandsfähigkeit zeigen, erleiden Open-Weight-Modelle katastrophale Genauigkeitsverluste, was strukturelle Zerbrechlichkeit und potenzielle Probleme mit dem Arbeitsgedächtnis oder der mechanischen Analyse aufdeckt.

30
RESEARCHarXiv CS.CL·vor 6T

Adaptive Latent Agentic Reasoning

Diese Forschung stellt das Adaptive Latent Agentic Reasoning (ALAR) vor, ein Dual-Modus-Framework zur Steigerung der Effizienz von LLM-Agenten. ALAR nutzt kompaktes latentes Denken für Routineaufgaben und skaliert bei Bedarf einer tieferen Überlegung auf explizites Chain-of-Thought, wodurch vergleichbare oder bessere Aufgabenpräzision bei erheblichen Effizienzsteigerungen erzielt werden.

29
RESEARCHarXiv CS.CL·4/20/2026

Think Multilingual, Not Harder: A Data-Efficient Framework for Teaching Reasoning Models to Code-Switch

Diese Forschung stellt ein dateneffizientes Fine-Tuning-Framework vor, um Reasoning-Modellen beizubringen, effektiv Code-Switching für Denkaufgaben zu nutzen. Es identifiziert vorteilhafte Code-Switching-Verhaltensweisen durch die systematische Analyse diverser Reasoning-Spuren, statt dies als Fehler zu betrachten.

29
RESEARCHarXiv CS.CL·4/24/2026

AITP: Traffic Accident Responsibility Allocation via Multimodal Large Language Models

AITP wird als multimodales großes Sprachmodell zur Zuweisung der Verantwortung bei Verkehrsunfällen vorgestellt, das die Argumentation durch Multimodal Chain-of-Thought verbessert und juristisches Wissen über RAG integriert. Die Studie präsentiert zudem DecaTARA, einen umfassenden Decathlon-Benchmark mit 67.941 annotierten Videos und 195.821 Frage-Antwort-Paaren.

29
RESEARCHarXiv CS.AI·vor 5T

Consensus is Strategically Insufficient: Reasoning-Trace Disagreement as a Knowledge-Representation Signal

Dieser Artikel argumentiert, dass die Reduzierung von Meinungsverschiedenheiten in Multi-Agenten-Systemen für wertebehaftete Aufgaben unzureichend ist, und schlägt eine Wissensrepräsentationsschicht vor. Diese Schicht abstrahiert Argumentationsspuren und Agentenentscheidungen in symbolische Meinungsverschiedenheitszustände, wobei vier Typen unterschieden werden, mit Anwendung in der Inhaltsmoderation.

28
RESEARCHarXiv CS.CL·4/9/2026

The Stepwise Informativeness Assumption: Why are Entropy Dynamics and Reasoning Correlated in LLMs?

Este artigo investiga a correlação entre a dinâmica interna de entropia e o raciocínio correto em Large Language Models (LLMs), um enigma ainda sem solução. Propõe a Hipótese de Informatividade Gradual (SIA), que afirma que os modelos raciocinam corretamente ao acumular informações relevantes sobre a resposta por meio de prefixos informativos, um processo reforçado por métodos de treinamento padrão.

28
RESEARCHarXiv CS.AI·5/4/2026

Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents

Diese Forschung stellt die Annahme in Frage, dass werkzeuggestütztes Denken die LLM-Leistung immer verbessert, und zeigt eine "Tool-Use Tax" durch das Tool-Calling-Protokoll auf, die die Leistung mindern kann. Ein Faktorisiertes Interventionsrahmenwerk wird vorgeschlagen, um dies zu analysieren, und G-STEP wird zur teilweisen Minderung von Protokollfehlern eingeführt.

28
RESEARCHarXiv CS.AI·vor 6T

Visual Graph Scaffolds for Structural Reasoning in Large Language Models

Diese Forschung untersucht die Verwendung visueller Graphenstrukturen zur Organisation des Denkprozesses in großen Sprachmodellen (LLMs), inspiriert von menschlichen Mindmaps. Experimente bei mehrstufigen Frage-Antwort-Aufgaben zeigen, dass visuelle Graphenführung die Effizienz des Denkprozesses und die Antwortqualität im Vergleich zu textuellen Darstellungen erheblich verbessert.

28
RESEARCHarXiv CS.CL·4/10/2026

Reasoning-Based Refinement of Unsupervised Text Clusters with LLMs

Este artigo propõe uma estrutura de refinamento baseada em raciocínio que utiliza LLMs como juízes semânticos para validar e reestruturar os resultados de algoritmos de agrupamento de texto não supervisionados. A estrutura inclui verificação de coerência, adjudicação de redundância e fundamentação de rótulos, visando melhorar a qualidade dos clusters sem dados rotulados.

28
RESEARCHarXiv CS.LG·vor 15T

When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions

Diese Forschung schlägt vor, dass das LLM-Schlussfolgern ein dynamischer Dekodierungszustand ist, keine statische Eigenschaft, erkennbar durch frühzeitige Entropiedynamiken während der Generierung. Aufgaben, die von Chain-of-Thought profitieren, zeigen eine konsistente Entropiereduktion, interpretiert als Phasenübergang zu einem strukturierten Schlussfolgerungsregime.

28