Reasoning

57 items

RESEARCHarXiv CS.CL·vor 26T

TimelineReasoner: Advancing Timeline Summarization with Large Reasoning Models

TimelineReasoner ist ein neuartiges Framework, das große Reasoning-Modelle (LRMs) nutzt, um die Zeitstrahl-Zusammenfassung zu verbessern und passive Ansätze von großen Sprachmodellen (LLMs) zu überwinden. Es verwendet einen aktiven, auf Reasoning basierenden zweistufigen Prozess – Globale Kognition und Detail-Exploration – um strukturierte Zeitstrahlen aus unstrukturierten Online-Nachrichten aktiv zu extrahieren und zu verfeinern.

timeline-summarization Natural Language Processing Reasoning large language models

RESEARCHarXiv CS.CL·vor 20T

Diagnosing Multi-step Reasoning Failures in Black-box LLMs via Stepwise Confidence Attribution

Dieses Papier stellt Stepwise Confidence Attribution (SCA) vor, ein Framework für Black-Box-LLMs, das mehrstufige Schlussfolgerungsfehler durch schrittweise Konfidenzzuordnung diagnostiziert. SCA wendet das Information Bottleneck-Prinzip an, kennzeichnet Abweichungen von Konsensstrukturen als potenzielle Fehler und schlägt zwei komplementäre Methoden vor: NIBS und GIBS.

LLMs information bottleneck Reasoning confidence estimation

RESEARCHarXiv CS.AI·vor 15T

PathCal: State-Aware Reflection-Marker Calibration for Efficient Reasoning

Diese Forschungsarbeit stellt 'PathCal' vor, die die unterschiedlichen funktionalen Rollen und den Zeitpunkt von Reflexionsmarkern in den Chain-of-Thought-Trajektorien großer Reasoning Language Models untersucht. Es zeigt sich, dass Marker wie 'wait' oder 'but' erheblich in ihrem Einfluss auf Genauigkeit und Generierungslänge variieren, was frühere grobkörnige Ansätze in Frage stellt.

Natural Language Processing Chain-of-Thought Reasoning large language models

RESEARCHarXiv CS.CL·vor 8T

Can LLM Teams Play What? Where? When?

Diese Forschung untersucht, wie teambasierte Interaktionen die Leistung großer Sprachmodelle (LLMs) bei komplexen Denkaufgaben verbessern, insbesondere im Quizspiel Was? Wo? Wann?. Es zeigt, dass Teamstrategien erhebliche Genauigkeitsgewinne erzielen, wobei die besten Teams die menschliche Leistung erreichen.

LLMs team strategies Benchmarking Reasoning

RESEARCHarXiv CS.AI·vor 14T

How Much Thinking is Enough? Quantifying and Understanding Redundancy in LLM Reasoning

Dieses Papier quantifiziert und erklärt Redundanz im Denken großer Sprachmodelle (LLMs), indem es das Konzept formalisiert und in großem Maßstab misst. Die Forschung zeigt, dass zwischen 61% und 93% der Denkprozesse von LLMs unnötig sind, was Latenz, GPU-Zeit und Energieverbrauch beeinflusst.

efficiency Benchmarking Reasoning redundancy

RESEARCHarXiv CS.CL·vor 6T

Adaptive Latent Agentic Reasoning

Diese Forschung stellt das Adaptive Latent Agentic Reasoning (ALAR) vor, ein Dual-Modus-Framework zur Steigerung der Effizienz von LLM-Agenten. ALAR nutzt kompaktes latentes Denken für Routineaufgaben und skaliert bei Bedarf einer tieferen Überlegung auf explizites Chain-of-Thought, wodurch vergleichbare oder bessere Aufgabenpräzision bei erheblichen Effizienzsteigerungen erzielt werden.

LLMs machine learning efficiency Reasoning

RESEARCHarXiv CS.LG·vor 13T

ARBITER: Reasoning Trajectory Basins and Majority Vote Failures in Test-Time Sampling

Wenn Sprachmodelle Testzeit-Sampling und Mehrheitsentscheid nutzen, konzentrieren sich Denkpfade in nicht-unabhängigen

language models Model Evaluation Reasoning AI Research

RESEARCHHugging Face Blog·4/15/2026

Inside VAKRA: Reasoning, Tool Use, and Failure Modes of Agents

Dieser Inhalt befasst sich mit VAKRA, einem KI-Agentensystem, und untersucht dessen Denkprozesse, Werkzeugnutzung und die verschiedenen Arten des Versagens. Es liefert Einblicke in die operativen Eigenschaften und Grenzen fortgeschrittener KI-Agenten.

failure modes VAKRA Reasoning tool use

RESEARCHarXiv CS.AI·4/9/2026

SELFDOUBT: Uncertainty Quantification for Reasoning LLMs via the Hedge-to-Verify Ratio

Este artigo propõe SELFDOUBT, uma estrutura de passagem única para quantificar a incerteza em LLMs de raciocínio, especialmente para APIs proprietárias. Utiliza o Hedge-to-Verify Ratio (HVR) para identificar marcadores de incerteza e autoavaliação diretamente do rastro de raciocínio, superando métodos caros de amostragem.

LLMs Model Evaluation Uncertainty Quantification Reasoning

RESEARCHarXiv CS.AI·4/30/2026

Auto-Relational Reasoning

Forscher schlagen einen neuen theoretischen Rahmen für automatisiertes relationales Denken vor, der maschinelles Lernen mit starrem Denken kombiniert, um die Grenzen aktueller großer Modelle zu überwinden. Das resultierende System zeigt eine hohe Leistung bei IQ-Problemen und erreicht eine Lösungsrate von 98,03% ohne Vorkenntnisse.

neural networks machine learning Reasoning problem-solving

RESEARCHarXiv CS.AI·4/23/2026

The Tool-Overuse Illusion: Why Does LLM Prefer External Tools over Internal Knowledge?

Dieses Papier enthüllt das weit verbreitete Phänomen der „Werkzeugübernutzung“ bei LLMs, bei dem Modelle externe Werkzeuge unnötig einsetzen. Es identifiziert eine „epistemische Wissensillusion“ und schlägt eine auf direkter Präferenzoptimierung basierende Strategie vor, die den Werkzeuggebrauch um 82,8 % reduziert und die Genauigkeit verbessert.

LLMs Knowledge Representation Reasoning model behavior

RESEARCHarXiv CS.CL·5/6/2026

Evaluating Reasoning Models for Queries with Presuppositions

Diese Forschung untersucht, wie fortschrittliche Reasoning-Modelle mit Benutzeranfragen umgehen, die faktisch ungenaue Präsuppositionen enthalten. Obwohl diese Modelle eine leichte Verbesserung gegenüber Nicht-Reasoning-Modellen zeigen, versagen sie immer noch dabei, einen erheblichen Anteil falscher Annahmen zu hinterfragen.

presuppositions AI models LLMs evaluation

RESEARCHarXiv CS.CL·4/15/2026

Filtered Reasoning Score: Evaluating Reasoning Quality on a Model's Most-Confident Traces

Diese Forschung stellt den "Filtered Reasoning Score" vor, eine neuartige Metrik zur Bewertung der Denkqualität in KI-Modellen. Sie konzentriert sich speziell auf die Bewertung des Denkvermögens, das in den selbstsichersten Ausgaben oder "Traces" eines Modells sichtbar ist.

AI metrics machine learning Reasoning AI evaluation

RESEARCHarXiv CS.LG·4/24/2026

The Path Not Taken: Duality in Reasoning about Program Execution

Der Titel deutet auf eine Untersuchung der Dualität beim Denken über Programmausführung hin, was eine tiefgehende Analyse alternativer Ansätze vermuten lässt. Es befasst sich wahrscheinlich mit formalen und logischen Methoden zum Verständnis der Funktionsweise von Programmen.

formal methods Reasoning Program execution Duality

ARTICLEDEV.to AI·4/12/2026

We Hit 99.1% on the LOCOMO Benchmark. Here's How.

Ein Team erreichte 99,1 % auf dem LOCOMO-Benchmark, der die Multi-Hop-Argumentation von KI-Agenten mit gespeicherten Erinnerungen bewertet. Dieser Durchbruch wurde dem Entfernen einer einzelnen Prämisse zugeschrieben, anstatt ein komplexes neues Modell zu entwickeln.

Memory Systems Benchmarking Reasoning AI

NEWSTogether AI Blog·3/18/2026

Together AI expands fine-tuning service with tool calling, reasoning, and vision support

Together AI hat seinen Fine-Tuning-Dienst um native Unterstützung für Werkzeugaufrufe, Schlussfolgerungen und Vision-Language-Modelle erweitert. Die Erweiterungen umfassen außerdem das Training von Modellen mit über 100 Milliarden Parametern, einen bis zu 6-fach höheren Durchsatz sowie Schätzungen für Jobkosten und die voraussichtliche Fertigstellungszeit.

Vision-Language Models tool-calling Reasoning Together AI

NEWSDEV.to AI·4/24/2026

DeepSeek V4 Rivoluziona l'IA con un Contesto da 1 Milione di Token e Ragionamento di Classe Mondiale

DeepSeek V4 revolutioniert die KI durch die Einführung eines Kontextfensters von 1 Million Tokens und erstklassigen Denkfähigkeiten. Die Ankündigung fasst die wichtigsten Punkte zusammen, wobei eine detailliertere Analyse im vollständigen Artikel verfügbar ist.

DeepSeek AI models Context window Reasoning