Reasoning

57 items

RESEARCHarXiv CS.CL·hace 27d

TimelineReasoner: Advancing Timeline Summarization with Large Reasoning Models

TimelineReasoner es un nuevo marco que utiliza Grandes Modelos de Razonamiento (LRMs) para mejorar la creación de resúmenes de líneas de tiempo, yendo más allá de la generación pasiva de Modelos de Lenguaje Grande (LLMs). Propone un proceso activo de dos etapas, Cognición Global y Exploración Detallada, para extraer y refinar líneas de tiempo estructuradas de noticias online.

timeline-summarization Natural Language Processing Reasoning large language models

RESEARCHarXiv CS.CL·hace 21d

Diagnosing Multi-step Reasoning Failures in Black-box LLMs via Stepwise Confidence Attribution

Este artículo introduce el Stepwise Confidence Attribution (SCA), un marco para LLMs de caja negra que diagnostica fallas en el razonamiento multi-paso asignando confianza a nivel de paso. SCA aplica el principio de Information Bottleneck, marcando las desviaciones de las estructuras de consenso como errores potenciales, y propone dos métodos complementarios: NIBS y GIBS.

LLMs information bottleneck Reasoning confidence estimation

RESEARCHarXiv CS.AI·hace 16d

PathCal: State-Aware Reflection-Marker Calibration for Efficient Reasoning

Este artículo de investigación presenta 'PathCal', que investiga los distintos roles funcionales y el momento de los marcadores de reflexión en las trayectorias de Chain-of-Thought de los Large Reasoning Language Models. Revela que marcadores como 'wait' o 'but' difieren significativamente en su impacto en la precisión y la longitud de la generación, desafiando enfoques anteriores.

Natural Language Processing Chain-of-Thought Reasoning large language models

RESEARCHarXiv CS.CL·hace 9d

Can LLM Teams Play What? Where? When?

Esta investigación explora cómo las interacciones basadas en equipos mejoran el rendimiento de los Grandes Modelos de Lenguaje (LLMs) en tareas complejas de razonamiento, específicamente en el juego de preguntas ¿Qué? ¿Dónde? ¿Cuándo?. Demuestra que las estrategias de equipo producen ganancias significativas en la precisión, acercándose los mejores equipos al rendimiento humano.

LLMs team strategies benchmarking Reasoning

RESEARCHarXiv CS.AI·hace 15d

How Much Thinking is Enough? Quantifying and Understanding Redundancy in LLM Reasoning

Este artículo cuantifica y explica la redundancia en el razonamiento de los grandes modelos de lenguaje (LLM), formalizando el concepto y midiéndolo a gran escala. La investigación revela que entre el 61% y el 93% de los pasos de pensamiento de los LLM son innecesarios, afectando la latencia, el tiempo de GPU y el consumo de energía.

efficiency benchmarking Reasoning redundancy

RESEARCHarXiv CS.CL·hace 7d

Adaptive Latent Agentic Reasoning

Esta investigación presenta el Razonamiento Latente Agente Adaptativo (ALAR), un marco de modo dual diseñado para mejorar la eficiencia de los agentes LLM. ALAR utiliza el razonamiento latente compacto para tareas rutinarias y escala a un razonamiento explícito de cadena de pensamiento cuando se necesita una deliberación más profunda, manteniendo o mejorando la precisión de la tarea con ganancias sustanciales de eficiencia.

LLMs machine learning efficiency Reasoning

RESEARCHarXiv CS.LG·hace 14d

ARBITER: Reasoning Trajectory Basins and Majority Vote Failures in Test-Time Sampling

Cuando los modelos de lenguaje usan muestreo en tiempo de prueba y voto mayoritario, las trayectorias de razonamiento se concentran en

language models Model Evaluation Reasoning AI research

RESEARCHHugging Face Blog·15/4/2026

Inside VAKRA: Reasoning, Tool Use, and Failure Modes of Agents

Este contenido profundiza en VAKRA, un sistema de agentes de IA, examinando sus procesos de razonamiento, cómo utiliza herramientas y los diversos modos en los que puede fallar. Proporciona información sobre las características operacionales y limitaciones de los agentes de IA avanzados.

failure modes VAKRA Reasoning tool use

RESEARCHarXiv CS.AI·9/4/2026

SELFDOUBT: Uncertainty Quantification for Reasoning LLMs via the Hedge-to-Verify Ratio

Este artigo propõe SELFDOUBT, uma estrutura de passagem única para quantificar a incerteza em LLMs de raciocínio, especialmente para APIs proprietárias. Utiliza o Hedge-to-Verify Ratio (HVR) para identificar marcadores de incerteza e autoavaliação diretamente do rastro de raciocínio, superando métodos caros de amostragem.

LLMs Model Evaluation uncertainty quantification Reasoning

RESEARCHarXiv CS.AI·30/4/2026

Auto-Relational Reasoning

Investigadores proponen un nuevo marco teórico para el razonamiento relacional automatizado, combinando el aprendizaje automático con el razonamiento rígido para superar los límites de los grandes modelos actuales. El sistema resultante demuestra un alto rendimiento en problemas de coeficiente intelectual, logrando una tasa de resolución del 98,03% sin conocimiento previo.

neural networks machine learning Reasoning problem solving

RESEARCHarXiv CS.AI·23/4/2026

The Tool-Overuse Illusion: Why Does LLM Prefer External Tools over Internal Knowledge?

Este artículo revela el fenómeno generalizado del "uso excesivo de herramientas" en LLMs, donde los modelos emplean herramientas externas innecesariamente. Identifica una "ilusión epistémica del conocimiento" y propone una estrategia basada en la optimización de preferencia directa que reduce el uso de herramientas en un 82,8% y mejora la precisión.

LLMs Knowledge Representation Reasoning model behavior

RESEARCHarXiv CS.CL·6/5/2026

Evaluating Reasoning Models for Queries with Presuppositions

Esta investigación evalúa cómo los modelos de razonamiento avanzados manejan las consultas de los usuarios que contienen presuposiciones fácticas inexactas. Aunque estos modelos muestran una ligera mejora sobre los modelos no razonadores, aún no logran desafiar una fracción significativa de suposiciones falsas.

presuppositions AI models LLMs evaluation

RESEARCHarXiv CS.CL·15/4/2026

Filtered Reasoning Score: Evaluating Reasoning Quality on a Model's Most-Confident Traces

Esta investigación introduce el "Filtered Reasoning Score", una métrica novedosa diseñada para evaluar la calidad del razonamiento en modelos de IA. Se enfoca específicamente en evaluar el razonamiento evidente en las salidas o "traces" más seguros de un modelo.

AI metrics machine learning Reasoning AI evaluation

RESEARCHarXiv CS.LG·24/4/2026

The Path Not Taken: Duality in Reasoning about Program Execution

El título sugiere una exploración de la dualidad en el razonamiento sobre la ejecución de programas, indicando un análisis profundo de enfoques alternativos. Probablemente aborda métodos formales y lógicos para comprender cómo operan los programas.

formal methods Reasoning Program execution Duality

ARTICLEDEV.to AI·12/4/2026

We Hit 99.1% on the LOCOMO Benchmark. Here's How.

Un equipo alcanzó el 99,1% en el benchmark LOCOMO, que evalúa el razonamiento multi-salto de agentes de IA usando memorias. Este avance se logró al eliminar una única premisa, no mediante un modelo complejo.

memory systems benchmarking Reasoning AI

NEWSTogether AI Blog·18/3/2026

Together AI expands fine-tuning service with tool calling, reasoning, and vision support

Together AI ha ampliado su servicio de fine-tuning con soporte nativo para llamadas a herramientas, razonamiento y modelos de visión-lenguaje. Las mejoras también incluyen el entrenamiento de modelos de más de 100 mil millones de parámetros, un rendimiento hasta 6 veces mayor y estimaciones de costos y ETA para los trabajos.

Vision-Language Models tool-calling Reasoning Together AI

NEWSDEV.to AI·24/4/2026

DeepSeek V4 Rivoluziona l'IA con un Contesto da 1 Milione di Token e Ragionamento di Classe Mondiale

DeepSeek V4 está revolucionando la IA al introducir un contexto de 1 millón de tokens y capacidades de razonamiento de clase mundial. El anuncio detalla los puntos clave, con un análisis más profundo disponible en el artículo completo.

DeepSeek AI models Context window Reasoning