← heapsort-ai

Reasoning

57 items

RESEARCHarXiv CS.CL·hace 27d

TimelineReasoner: Advancing Timeline Summarization with Large Reasoning Models

TimelineReasoner es un nuevo marco que utiliza Grandes Modelos de Razonamiento (LRMs) para mejorar la creación de resúmenes de líneas de tiempo, yendo más allá de la generación pasiva de Modelos de Lenguaje Grande (LLMs). Propone un proceso activo de dos etapas, Cognición Global y Exploración Detallada, para extraer y refinar líneas de tiempo estructuradas de noticias online.

27
RESEARCHarXiv CS.CL·hace 21d

Diagnosing Multi-step Reasoning Failures in Black-box LLMs via Stepwise Confidence Attribution

Este artículo introduce el Stepwise Confidence Attribution (SCA), un marco para LLMs de caja negra que diagnostica fallas en el razonamiento multi-paso asignando confianza a nivel de paso. SCA aplica el principio de Information Bottleneck, marcando las desviaciones de las estructuras de consenso como errores potenciales, y propone dos métodos complementarios: NIBS y GIBS.

27
RESEARCHarXiv CS.AI·hace 16d

PathCal: State-Aware Reflection-Marker Calibration for Efficient Reasoning

Este artículo de investigación presenta 'PathCal', que investiga los distintos roles funcionales y el momento de los marcadores de reflexión en las trayectorias de Chain-of-Thought de los Large Reasoning Language Models. Revela que marcadores como 'wait' o 'but' difieren significativamente en su impacto en la precisión y la longitud de la generación, desafiando enfoques anteriores.

27
RESEARCHarXiv CS.CL·hace 9d

Can LLM Teams Play What? Where? When?

Esta investigación explora cómo las interacciones basadas en equipos mejoran el rendimiento de los Grandes Modelos de Lenguaje (LLMs) en tareas complejas de razonamiento, específicamente en el juego de preguntas ¿Qué? ¿Dónde? ¿Cuándo?. Demuestra que las estrategias de equipo producen ganancias significativas en la precisión, acercándose los mejores equipos al rendimiento humano.

27
RESEARCHarXiv CS.CL·hace 7d

Adaptive Latent Agentic Reasoning

Esta investigación presenta el Razonamiento Latente Agente Adaptativo (ALAR), un marco de modo dual diseñado para mejorar la eficiencia de los agentes LLM. ALAR utiliza el razonamiento latente compacto para tareas rutinarias y escala a un razonamiento explícito de cadena de pensamiento cuando se necesita una deliberación más profunda, manteniendo o mejorando la precisión de la tarea con ganancias sustanciales de eficiencia.

27
RESEARCHarXiv CS.AI·9/4/2026

SELFDOUBT: Uncertainty Quantification for Reasoning LLMs via the Hedge-to-Verify Ratio

Este artigo propõe SELFDOUBT, uma estrutura de passagem única para quantificar a incerteza em LLMs de raciocínio, especialmente para APIs proprietárias. Utiliza o Hedge-to-Verify Ratio (HVR) para identificar marcadores de incerteza e autoavaliação diretamente do rastro de raciocínio, superando métodos caros de amostragem.

27
RESEARCHarXiv CS.AI·30/4/2026

Auto-Relational Reasoning

Investigadores proponen un nuevo marco teórico para el razonamiento relacional automatizado, combinando el aprendizaje automático con el razonamiento rígido para superar los límites de los grandes modelos actuales. El sistema resultante demuestra un alto rendimiento en problemas de coeficiente intelectual, logrando una tasa de resolución del 98,03% sin conocimiento previo.

27
RESEARCHarXiv CS.AI·23/4/2026

The Tool-Overuse Illusion: Why Does LLM Prefer External Tools over Internal Knowledge?

Este artículo revela el fenómeno generalizado del "uso excesivo de herramientas" en LLMs, donde los modelos emplean herramientas externas innecesariamente. Identifica una "ilusión epistémica del conocimiento" y propone una estrategia basada en la optimización de preferencia directa que reduce el uso de herramientas en un 82,8% y mejora la precisión.

27
NEWSTogether AI Blog·18/3/2026

Together AI expands fine-tuning service with tool calling, reasoning, and vision support

Together AI ha ampliado su servicio de fine-tuning con soporte nativo para llamadas a herramientas, razonamiento y modelos de visión-lenguaje. Las mejoras también incluyen el entrenamiento de modelos de más de 100 mil millones de parámetros, un rendimiento hasta 6 veces mayor y estimaciones de costos y ETA para los trabajos.

24