Reasoning

57 items

RESEARCHarXiv CS.AI·vor 20Std

Why Limit the Residual Stream to Layers and Not Tokens? Persistent Memory for Continuous Latent Reasoning

Große Sprachmodelle (LLMs) stoßen auf eine Einschränkung namens 'Konzept-Engpass', bei der sie kritische Fakten in tiefen latenten Schlussfolgerungen verlieren. Dieses Papier schlägt AGCLR vor, um dies zu beheben, indem CoCoNuT mit einem Gated Concept Stream für persistenten Speicher erweitert wird.

machine learning Latent Reasoning Reasoning AI Research

NEWS↑ trendingReddit r/LocalLLaMA·4/8/2026

Meta new reasoning model Muse Spark

O conteúdo anuncia o lançamento do Muse Spark, um novo modelo de raciocínio de IA desenvolvido pela Meta. Este modelo promete avançar as capacidades de raciocínio em inteligência artificial.

Muse Spark Reasoning AI model Meta

RESEARCHarXiv CS.CL·vor 1T

How Language Models Fail: Token-Level Signatures of Committed and Persistent Reasoning Failures

Fehler im Sprachmodell-Denken entstehen durch unterschiedliche Prozesse, die identifizierbare Token-Level-Signaturen hinterlassen. Diese Fehler werden als „festgelegter Fehler“ oder „anhaltende Unsicherheit“ charakterisiert, und das Verständnis dieser Signaturen hilft, fehlerhafte von erfolgreichen Vervollständigungen in verschiedenen Konfigurationen zu unterscheiden.

language models research Reasoning AI failures

RESEARCHDEV.to AI·vor 14T

Meta-Stanford Survey: Code as Agent Harness Improves AI Reasoning

Eine Umfrage von Meta, Stanford und Illinois deutet darauf hin, dass KI-Agenten besser funktionieren, wenn Code ihre Hauptarbeitsebene ist, ein Konzept, das als „Agent Harness“ bezeichnet wird. Dieser Ansatz verlagert den Fokus der KI von der reinen Textvorhersage auf ausführbares Denken, wodurch die Fähigkeit verbessert wird, komplexe Aufgaben zu bewältigen und Fehler zu minimieren.

agent harness LLMs code Reasoning

RESEARCHarXiv CS.LG·4/13/2026

Robust Reasoning Benchmark

Diese Studie schlägt eine neue Störungs-Pipeline zur Bewertung der Robustheit des LLM-Schlussfolgerns vor, die auf den AIME 2024 Datensatz angewendet wird. Während Spitzenmodelle Widerstandsfähigkeit zeigen, erleiden Open-Weight-Modelle katastrophale Genauigkeitsverluste, was strukturelle Zerbrechlichkeit und potenzielle Probleme mit dem Arbeitsgedächtnis oder der mechanischen Analyse aufdeckt.

robustness LLMs Model Evaluation Reasoning

RESEARCHarXiv CS.CL·vor 6T

Adaptive Latent Agentic Reasoning

Diese Forschung stellt das Adaptive Latent Agentic Reasoning (ALAR) vor, ein Dual-Modus-Framework zur Steigerung der Effizienz von LLM-Agenten. ALAR nutzt kompaktes latentes Denken für Routineaufgaben und skaliert bei Bedarf einer tieferen Überlegung auf explizites Chain-of-Thought, wodurch vergleichbare oder bessere Aufgabenpräzision bei erheblichen Effizienzsteigerungen erzielt werden.

LLMs machine learning efficiency Reasoning

RESEARCHarXiv CS.CL·4/20/2026

Think Multilingual, Not Harder: A Data-Efficient Framework for Teaching Reasoning Models to Code-Switch

Diese Forschung stellt ein dateneffizientes Fine-Tuning-Framework vor, um Reasoning-Modellen beizubringen, effektiv Code-Switching für Denkaufgaben zu nutzen. Es identifiziert vorteilhafte Code-Switching-Verhaltensweisen durch die systematische Analyse diverser Reasoning-Spuren, statt dies als Fehler zu betrachten.

Multilingual AI Code-Switching Reasoning large language models

RESEARCHDEV.to AI·4/22/2026

What VAKRA Reveals About Why Agents Actually Fail

VAKRA, ein neuer Benchmark von IBM Research, zeigt, dass KI-Agenten auf vorhersagbare, strukturelle Weise versagen, indem er Bruchstellen zwischen Argumentation, Werkzeugauswahl und Ausführung abbildet. Er zerlegt Agentenversagen in sechs spezifische Kategorien und geht über traditionelle binäre Bewertungen hinaus, um gemeinsame Schwächen aufzudecken.

failure analysis Model Evaluation Benchmarking Reasoning

RESEARCHarXiv CS.CL·4/24/2026

AITP: Traffic Accident Responsibility Allocation via Multimodal Large Language Models

AITP wird als multimodales großes Sprachmodell zur Zuweisung der Verantwortung bei Verkehrsunfällen vorgestellt, das die Argumentation durch Multimodal Chain-of-Thought verbessert und juristisches Wissen über RAG integriert. Die Studie präsentiert zudem DecaTARA, einen umfassenden Decathlon-Benchmark mit 67.941 annotierten Videos und 195.821 Frage-Antwort-Paaren.

multimodal AI Reasoning Benchmarks large language models

RESEARCHDEV.to AI·4/20/2026

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

O1-Pruner stellt eine längen-harmonisierende Feinabstimmungsmethode zur Optimierung von Modellen für O1-ähnliches Reasoning-Pruning vor. Diese Technik zielt darauf ab, die Denkfähigkeiten von KI-Modellen zu verbessern.

Pruning Reasoning Fine-tuning model optimization

RESEARCHarXiv CS.AI·vor 5T

Consensus is Strategically Insufficient: Reasoning-Trace Disagreement as a Knowledge-Representation Signal

Dieser Artikel argumentiert, dass die Reduzierung von Meinungsverschiedenheiten in Multi-Agenten-Systemen für wertebehaftete Aufgaben unzureichend ist, und schlägt eine Wissensrepräsentationsschicht vor. Diese Schicht abstrahiert Argumentationsspuren und Agentenentscheidungen in symbolische Meinungsverschiedenheitszustände, wobei vier Typen unterschieden werden, mit Anwendung in der Inhaltsmoderation.

Disagreement Knowledge Representation Reasoning content moderation

RESEARCHarXiv CS.CL·4/9/2026

The Stepwise Informativeness Assumption: Why are Entropy Dynamics and Reasoning Correlated in LLMs?

Este artigo investiga a correlação entre a dinâmica interna de entropia e o raciocínio correto em Large Language Models (LLMs), um enigma ainda sem solução. Propõe a Hipótese de Informatividade Gradual (SIA), que afirma que os modelos raciocinam corretamente ao acumular informações relevantes sobre a resposta por meio de prefixos informativos, um processo reforçado por métodos de treinamento padrão.

information theory LLMs machine learning Reasoning

RESEARCHarXiv CS.AI·5/4/2026

Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents

Diese Forschung stellt die Annahme in Frage, dass werkzeuggestütztes Denken die LLM-Leistung immer verbessert, und zeigt eine "Tool-Use Tax" durch das Tool-Calling-Protokoll auf, die die Leistung mindern kann. Ein Faktorisiertes Interventionsrahmenwerk wird vorgeschlagen, um dies zu analysieren, und G-STEP wird zur teilweisen Minderung von Protokollfehlern eingeführt.

LLM Agents Reasoning AI performance tool use

RESEARCHarXiv CS.CL·vor 19T

Long-Context Reasoning Through Proxy-Based Chain-of-Thought Tuning

Große Sprachmodelle zeigen trotz Unterstützung umfangreicher Eingaben schlechte Leistungen bei komplexen Langkontext-Argumentationsaufgaben. ProxyCoT ist ein neuer Trainingsansatz, der Argumentationsfähigkeiten von kurzen Proxy-Kontexten auf vollständige lange Kontexte überträgt und starke Baselines übertrifft.

machine learning natural language processing Reasoning large language models

RESEARCHarXiv CS.AI·vor 6T

Visual Graph Scaffolds for Structural Reasoning in Large Language Models

Diese Forschung untersucht die Verwendung visueller Graphenstrukturen zur Organisation des Denkprozesses in großen Sprachmodellen (LLMs), inspiriert von menschlichen Mindmaps. Experimente bei mehrstufigen Frage-Antwort-Aufgaben zeigen, dass visuelle Graphenführung die Effizienz des Denkprozesses und die Antwortqualität im Vergleich zu textuellen Darstellungen erheblich verbessert.

LLMs Graph Structures Reasoning artificial intelligence

RESEARCHarXiv CS.CL·4/10/2026

Reasoning-Based Refinement of Unsupervised Text Clusters with LLMs

Este artigo propõe uma estrutura de refinamento baseada em raciocínio que utiliza LLMs como juízes semânticos para validar e reestruturar os resultados de algoritmos de agrupamento de texto não supervisionados. A estrutura inclui verificação de coerência, adjudicação de redundância e fundamentação de rótulos, visando melhorar a qualidade dos clusters sem dados rotulados.

LLMs Text Clustering Reasoning semantic analysis

RESEARCHarXiv CS.LG·vor 15T

When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions

Diese Forschung schlägt vor, dass das LLM-Schlussfolgern ein dynamischer Dekodierungszustand ist, keine statische Eigenschaft, erkennbar durch frühzeitige Entropiedynamiken während der Generierung. Aufgaben, die von Chain-of-Thought profitieren, zeigen eine konsistente Entropiereduktion, interpretiert als Phasenübergang zu einem strukturierten Schlussfolgerungsregime.

AI models LLMs Chain-of-Thought Reasoning

RESEARCHarXiv CS.AI·4/6/2026

Compositional Neuro-Symbolic Reasoning

O título refere-se à pesquisa sobre raciocínio neuro-simbólico composicional, uma área avançada da inteligência artificial. Este campo explora a integração de redes neurais com sistemas simbólicos para permitir raciocínio mais robusto e estruturado.

Compositionality Reasoning Neuro-symbolic AI

RESEARCHarXiv CS.LG·4/15/2026

How Transformers Learn to Plan via Multi-Token Prediction

Diese Arbeit untersucht, wie Multi-Token-Vorhersage (MTP) Transformer befähigt, Planen zu lernen, und dabei die Standard-Nächste-Token-Vorhersage (NTP) übertrifft. Empirisch verbessert MTP die Leistung bei Denkaufgaben durchgängig, und theoretisch induziert es einen zweistufigen umgekehrten Schlussfolgerungsprozess mittels Gradientenentkopplung.

Next-token prediction Planning Multi-Token Prediction Reasoning

ARTICLEGoogle for Developers (YouTube)·vor 19T

Building agents with real-world reasoning

Dieser Inhalt untersucht die Methoden und Herausforderungen bei der Entwicklung von KI-Agenten, die zu robustem Denken in der realen Welt fähig sind. Er geht auf die Techniken ein, die erforderlich sind, damit Agenten effektiv mit komplexen, dynamischen Umgebungen interagieren können.

agent development Reasoning real-world AI AI agents

Building agents with real-world reasoning