← heapsort-ai

Reasoning

57 items

RESEARCHarXiv CS.CL·vor 26T

TimelineReasoner: Advancing Timeline Summarization with Large Reasoning Models

TimelineReasoner ist ein neuartiges Framework, das große Reasoning-Modelle (LRMs) nutzt, um die Zeitstrahl-Zusammenfassung zu verbessern und passive Ansätze von großen Sprachmodellen (LLMs) zu überwinden. Es verwendet einen aktiven, auf Reasoning basierenden zweistufigen Prozess – Globale Kognition und Detail-Exploration – um strukturierte Zeitstrahlen aus unstrukturierten Online-Nachrichten aktiv zu extrahieren und zu verfeinern.

27
RESEARCHarXiv CS.CL·vor 20T

Diagnosing Multi-step Reasoning Failures in Black-box LLMs via Stepwise Confidence Attribution

Dieses Papier stellt Stepwise Confidence Attribution (SCA) vor, ein Framework für Black-Box-LLMs, das mehrstufige Schlussfolgerungsfehler durch schrittweise Konfidenzzuordnung diagnostiziert. SCA wendet das Information Bottleneck-Prinzip an, kennzeichnet Abweichungen von Konsensstrukturen als potenzielle Fehler und schlägt zwei komplementäre Methoden vor: NIBS und GIBS.

27
RESEARCHarXiv CS.AI·vor 15T

PathCal: State-Aware Reflection-Marker Calibration for Efficient Reasoning

Diese Forschungsarbeit stellt 'PathCal' vor, die die unterschiedlichen funktionalen Rollen und den Zeitpunkt von Reflexionsmarkern in den Chain-of-Thought-Trajektorien großer Reasoning Language Models untersucht. Es zeigt sich, dass Marker wie 'wait' oder 'but' erheblich in ihrem Einfluss auf Genauigkeit und Generierungslänge variieren, was frühere grobkörnige Ansätze in Frage stellt.

27
RESEARCHarXiv CS.CL·vor 8T

Can LLM Teams Play What? Where? When?

Diese Forschung untersucht, wie teambasierte Interaktionen die Leistung großer Sprachmodelle (LLMs) bei komplexen Denkaufgaben verbessern, insbesondere im Quizspiel Was? Wo? Wann?. Es zeigt, dass Teamstrategien erhebliche Genauigkeitsgewinne erzielen, wobei die besten Teams die menschliche Leistung erreichen.

27
RESEARCHarXiv CS.CL·vor 6T

Adaptive Latent Agentic Reasoning

Diese Forschung stellt das Adaptive Latent Agentic Reasoning (ALAR) vor, ein Dual-Modus-Framework zur Steigerung der Effizienz von LLM-Agenten. ALAR nutzt kompaktes latentes Denken für Routineaufgaben und skaliert bei Bedarf einer tieferen Überlegung auf explizites Chain-of-Thought, wodurch vergleichbare oder bessere Aufgabenpräzision bei erheblichen Effizienzsteigerungen erzielt werden.

27
RESEARCHarXiv CS.AI·4/9/2026

SELFDOUBT: Uncertainty Quantification for Reasoning LLMs via the Hedge-to-Verify Ratio

Este artigo propõe SELFDOUBT, uma estrutura de passagem única para quantificar a incerteza em LLMs de raciocínio, especialmente para APIs proprietárias. Utiliza o Hedge-to-Verify Ratio (HVR) para identificar marcadores de incerteza e autoavaliação diretamente do rastro de raciocínio, superando métodos caros de amostragem.

27
RESEARCHarXiv CS.AI·4/30/2026

Auto-Relational Reasoning

Forscher schlagen einen neuen theoretischen Rahmen für automatisiertes relationales Denken vor, der maschinelles Lernen mit starrem Denken kombiniert, um die Grenzen aktueller großer Modelle zu überwinden. Das resultierende System zeigt eine hohe Leistung bei IQ-Problemen und erreicht eine Lösungsrate von 98,03% ohne Vorkenntnisse.

27
RESEARCHarXiv CS.AI·4/23/2026

The Tool-Overuse Illusion: Why Does LLM Prefer External Tools over Internal Knowledge?

Dieses Papier enthüllt das weit verbreitete Phänomen der „Werkzeugübernutzung“ bei LLMs, bei dem Modelle externe Werkzeuge unnötig einsetzen. Es identifiziert eine „epistemische Wissensillusion“ und schlägt eine auf direkter Präferenzoptimierung basierende Strategie vor, die den Werkzeuggebrauch um 82,8 % reduziert und die Genauigkeit verbessert.

27
NEWSTogether AI Blog·3/18/2026

Together AI expands fine-tuning service with tool calling, reasoning, and vision support

Together AI hat seinen Fine-Tuning-Dienst um native Unterstützung für Werkzeugaufrufe, Schlussfolgerungen und Vision-Language-Modelle erweitert. Die Erweiterungen umfassen außerdem das Training von Modellen mit über 100 Milliarden Parametern, einen bis zu 6-fach höheren Durchsatz sowie Schätzungen für Jobkosten und die voraussichtliche Fertigstellungszeit.

24