← heapsort-ai

Reasoning

57 items

RESEARCHarXiv CS.CL·hace 2d

How Language Models Fail: Token-Level Signatures of Committed and Persistent Reasoning Failures

Las fallas en el razonamiento de los modelos de lenguaje surgen a través de procesos distintos que dejan firmas identificables a nivel de token. Estas fallas se caracterizan como "falla comprometida" o "incertidumbre persistente", y comprender estas firmas ayuda a distinguir los resultados fallidos de los exitosos en varias configuraciones.

36
RESEARCHarXiv CS.LG·13/4/2026

Robust Reasoning Benchmark

Este estudio propone un nuevo benchmark para evaluar la robustez del razonamiento de los LLMs ante perturbaciones textuales, aplicándolo al conjunto de datos AIME 2024. Los resultados muestran que, mientras los modelos frontera son resilientes, los modelos de código abierto sufren caídas catastróficas de precisión, revelando fragilidades estructurales.

30
RESEARCHarXiv CS.CL·20/4/2026

Think Multilingual, Not Harder: A Data-Efficient Framework for Teaching Reasoning Models to Code-Switch

Esta investigación introduce un marco de ajuste fino (fine-tuning) eficiente en datos para enseñar a los modelos de razonamiento de lenguaje a alternar idiomas (code-switch) de manera efectiva en tareas de razonamiento. Busca identificar comportamientos beneficiosos de alternancia de idiomas, analizando sistemáticamente rastros de razonamiento diversos.

29
RESEARCHarXiv CS.CL·24/4/2026

AITP: Traffic Accident Responsibility Allocation via Multimodal Large Language Models

Se presenta AITP, un modelo de lenguaje grande multimodal para la asignación de responsabilidad en accidentes de tráfico, que mejora el razonamiento mediante Multimodal Chain-of-Thought e integra conocimiento legal a través de RAG. La investigación también introduce DecaTARA, un completo benchmark estilo decatlón con 67.941 videos anotados y 195.821 pares de preguntas y respuestas.

29
RESEARCHarXiv CS.AI·hace 6d

Consensus is Strategically Insufficient: Reasoning-Trace Disagreement as a Knowledge-Representation Signal

Este artículo sostiene que reducir el desacuerdo en sistemas multiagente es insuficiente para tareas cargadas de valores, proponiendo una capa de representación del conocimiento. Esta capa abstrae las trazas de razonamiento y las decisiones de los agentes en estados simbólicos de desacuerdo, distinguiendo cuatro tipos, con aplicación en la moderación de contenido.

28
RESEARCHarXiv CS.CL·9/4/2026

The Stepwise Informativeness Assumption: Why are Entropy Dynamics and Reasoning Correlated in LLMs?

Este artigo investiga a correlação entre a dinâmica interna de entropia e o raciocínio correto em Large Language Models (LLMs), um enigma ainda sem solução. Propõe a Hipótese de Informatividade Gradual (SIA), que afirma que os modelos raciocinam corretamente ao acumular informações relevantes sobre a resposta por meio de prefixos informativos, um processo reforçado por métodos de treinamento padrão.

28
RESEARCHarXiv CS.AI·4/5/2026

Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents

Esta investigación desafía la suposición de que el razonamiento con herramientas siempre mejora el rendimiento de los LLMs, demostrando que puede ser superado por CoT nativo debido a un "impuesto por uso de herramientas", especialmente con distractores semánticos. Se propone un marco de intervención factorizado para analizar esto y se introduce G-STEP como mitigación parcial para errores inducidos por el protocolo.

28
RESEARCHarXiv CS.CL·hace 20d

Long-Context Reasoning Through Proxy-Based Chain-of-Thought Tuning

Los grandes modelos de lenguaje tienen un rendimiento deficiente en tareas de razonamiento de contexto largo a pesar de admitir entradas extensas. ProxyCoT propone una nueva estructura de entrenamiento que transfiere las capacidades de razonamiento de contextos proxy cortos a contextos largos completos, superando a los modelos base.

28
RESEARCHarXiv CS.AI·hace 7d

Visual Graph Scaffolds for Structural Reasoning in Large Language Models

Esta investigación explora el uso de andamios de grafos visuales para organizar el razonamiento en Grandes Modelos de Lenguaje (LLMs), inspirándose en los mapas mentales humanos. Experimentos en tareas de respuesta a preguntas de varios saltos revelan que la guía visual de grafos mejora significativamente la eficiencia del razonamiento y la calidad de las respuestas en comparación con las representaciones textuales.

28
RESEARCHarXiv CS.CL·10/4/2026

Reasoning-Based Refinement of Unsupervised Text Clusters with LLMs

Este artigo propõe uma estrutura de refinamento baseada em raciocínio que utiliza LLMs como juízes semânticos para validar e reestruturar os resultados de algoritmos de agrupamento de texto não supervisionados. A estrutura inclui verificação de coerência, adjudicação de redundância e fundamentação de rótulos, visando melhorar a qualidade dos clusters sem dados rotulados.

28
RESEARCHarXiv CS.LG·hace 16d

When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions

Esta investigación propone que el razonamiento de los LLM es un estado de decodificación dinámico, no una propiedad estática, observable a través de la dinámica de entropía en las primeras etapas durante la generación. Las tareas que se benefician de Chain-of-Thought muestran una reducción consistente de la entropía, interpretada como una transición de fase a un régimen de razonamiento estructurado.

28
RESEARCHarXiv CS.AI·13/4/2026

StaRPO: Stability-Augmented Reinforcement Policy Optimization

StaRPO es un nuevo marco de aprendizaje por refuerzo diseñado para mejorar la consistencia lógica de los grandes modelos de lenguaje en tareas de razonamiento complejas. Incorpora explícitamente métricas de estabilidad, como la Función de Autocorrelación y la Eficiencia de la Ruta, para evaluar la coherencia local y la direccionalidad global del proceso de razonamiento.

27