← heapsort-ai

Reasoning

57 items

RESEARCHarXiv CS.AI·22/4/2026

From Natural Language to Executable Narsese: A Neuro-Symbolic Benchmark and Pipeline for Reasoning with NARS

Este artículo introduce un marco neuro-simbólico para traducir problemas de razonamiento en lenguaje natural a Narsese ejecutable, utilizando lógica de primer orden. Presenta NARS-Reasoning-v0.1, un nuevo benchmark con problemas de razonamiento y sus representaciones formales y etiquetas de verdad para evaluar las capacidades de razonamiento.

27
RESEARCHDEV.to AI·hace 17d

The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

Esta investigación explora el mecanismo de entropía del aprendizaje por refuerzo, específicamente su aplicación para mejorar las capacidades de razonamiento en los modelos de lenguaje. Investiga cómo se puede aprovechar la entropía para mejorar el proceso de aprendizaje y la toma de decisiones para un razonamiento más sólido en los modelos de lenguaje.

27
ARTICLEDEV.to AI·hace 19d

Apple Paper Argues LLMs Show 'Illusion of Thinking'

Un artículo de Apple titulado "The Illusion of Thinking" sostiene que los Large Language Models (LLM) carecen de razonamiento genuino, basándose únicamente en la coincidencia de patrones estadísticos. Liderado por Mehrdad Farajtabar, el estudio critica las afirmaciones de proveedores como GPT-4 y Claude, señalando fallas en tareas de razonamiento formal que requieren composicionalidad.

27
RESEARCHarXiv CS.LG·15/4/2026

When Reasoning Models Hurt Behavioral Simulation: A Solver-Sampler Mismatch in Multi-Agent LLM Negotiation

Este artículo examina cómo la mejora del razonamiento en los modelos de lenguaje puede perjudicar la fidelidad de las simulaciones de comportamiento, especialmente cuando el objetivo es muestrear comportamientos racionalmente limitados en lugar de resolver un problema estratégico. Los autores identifican un "desajuste entre solucionador y muestreador" donde los LLM optimizan en exceso, colapsando los comportamientos orientados al compromiso y resultando en diversidad sin fidelidad en los resultados.

27
RESEARCHarXiv CS.LG·14/4/2026

Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model

Esta investigación estudia el Alineamiento Deliberativo en LLMs, un método que busca mejorar la seguridad destilando capacidades de razonamiento de modelos más fuertes. El estudio descubre una brecha de alineamiento entre modelos profesor y alumno, demostrando que los modelos estudiantes pueden retener comportamientos inseguros del modelo base a pesar de aprender patrones de razonamiento avanzados. El trabajo propone un método de muestreo BoN para abordar estos desafíos.

27
RESEARCHarXiv CS.AI·9/5/2026

BALAR : A Bayesian Agentic Loop for Active Reasoning

Este artículo presenta BALAR (Bayesian Agentic Loop for Active Reasoning), un algoritmo de bucle externo agnóstico a la tarea que permite la interacción estructurada en múltiples turnos entre un agente LLM y un usuario. BALAR mantiene una creencia estructurada sobre estados latentes, selecciona preguntas aclaratorias maximizando la información mutua esperada y supera significativamente a los modelos de referencia en diversos puntos de referencia de razonamiento.

27
RESEARCHarXiv CS.LG·27/4/2026

Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning

Esta investigación estudia la necesidad de tokens de memoria aprendidos como bloc de notas computacional para Transformers Universales con Tiempo de Computación Adaptativo (ACT) en un benchmark de razonamiento combinatorio. Concluye que los tokens de memoria son empíricamente necesarios para un rendimiento no trivial, identificando un umbral inferior pronunciado para el recuento óptimo y una trampa común de inicialización del enrutador.

27
RESEARCHarXiv CS.LG·9/4/2026

RAGEN-2: Reasoning Collapse in Agentic RL

Este estudo introduz o conceito de 'colapso de template', uma falha em agentes LLM de múltiplas interações onde a resposta se torna agnóstica à entrada, mesmo com entropia estável. Propõe a Informação Mútua (MI) como uma métrica superior à entropia para diagnosticar a qualidade do raciocínio, correlacionando-se mais fortemente com o desempenho final.

27
RESEARCHarXiv CS.AI·30/4/2026

Grounding vs. Compositionality: On the Non-Complementarity of Reasoning in Neuro-Symbolic Systems

Este trabajo desafía la suposición de que el razonamiento composicional emerge como subproducto del anclaje simbólico en la IA neuro-simbólica. Introduce la arquitectura $i$LTN, demostrando que los modelos entrenados únicamente con un objetivo de anclaje no logran generalizar, siendo crucial el entrenamiento conjunto con anclaje perceptual y razonamiento multi-paso.

27
RESEARCHarXiv CS.CL·27/4/2026

Incentivizing Neuro-symbolic Language-based Reasoning in VLMs via Reinforcement Learning

Este trabajo explora el razonamiento en lenguaje neuro-simbólico en VLMs, utilizando Aprendizaje por Refuerzo para mejorar las habilidades analíticas y la eficiencia. Logró un aumento del 3,33% en la precisión en un conjunto de datos de visión-lenguaje y una reducción del 75% en los tokens de razonamiento.

27
RESEARCHarXiv CS.CL·24/4/2026

TRACES: Tagging Reasoning Steps for Adaptive Cost-Efficient Early-Stopping

Este artículo presenta TRACES, un framework ligero diseñado para optimizar los Modelos de Razonamiento del Lenguaje (LRMs) etiquetando los pasos de razonamiento en tiempo real. Permite la detención temprana adaptativa y costo-eficiente de las inferencias de LRM, abordando su ineficiencia actual y la sobre-generación de pasos de verificación.

27
RESEARCHarXiv CS.CL·7/5/2026

Adapt to Thrive! Adaptive Power-Mean Policy Optimization for Improved LLM Reasoning

Esta investigación propone la Optimización de Política de Media de Potencia Adaptativa (APMPO) para mejorar el razonamiento de Modelos de Lenguaje Grandes (LLMs) mediante RLVR. APMPO utiliza un objetivo de media de potencia generalizado y un recorte adaptable por retroalimentación para mejorar la dinámica de aprendizaje y el rendimiento.

27
RESEARCHarXiv CS.CL·7/5/2026

Free Energy-Driven Reinforcement Learning with Adaptive Advantage Shaping for Unsupervised Reasoning in LLMs

FREIA es un algoritmo novedoso de aprendizaje por refuerzo que mejora los LLM para el razonamiento no supervisado, abordando la falta de adaptabilidad en los métodos existentes. Utiliza la Recompensa Impulsada por Energía Libre (FER) para equilibrar el consenso y la exploración, y la Configuración Adaptativa de Ventaja (AAS) para ajustar las señales de aprendizaje. FREIA supera a las bases de referencia no supervisadas en tareas de razonamiento, especialmente en matemáticas.

27