Reasoning

57 items

RESEARCHarXiv CS.AI·22/4/2026

From Natural Language to Executable Narsese: A Neuro-Symbolic Benchmark and Pipeline for Reasoning with NARS

Este artículo introduce un marco neuro-simbólico para traducir problemas de razonamiento en lenguaje natural a Narsese ejecutable, utilizando lógica de primer orden. Presenta NARS-Reasoning-v0.1, un nuevo benchmark con problemas de razonamiento y sus representaciones formales y etiquetas de verdad para evaluar las capacidades de razonamiento.

LLMs Reasoning benchmarks Neuro-symbolic AI

ARTICLEDEV.to AI·hace 28d

DeepMind’s CEO Says AGI May Be ~4 Years Away. The Last Three Missing Pieces Are Not What Most People Think.

Demis Hassabis, CEO de Google DeepMind, predice que la AGI podría llegar alrededor de 2030, señalando tres brechas críticas en la IA actual: aprendizaje continuo, razonamiento a largo plazo y memoria real. Describe los modelos actuales como de "inteligencia irregular", con picos de rendimiento junto a fallos elementales.

DeepMind AGI Reasoning AI development

DOCDEV.to AI·25/4/2026

Tian AI Thinker: Building a Three-Layer LLM Reasoning Engine

El Tian AI Thinker es el núcleo cognitivo de Tian AI, orquestando un modelo Qwen2.5-1.5B local a través de un ThinkerRouter. Este enrutador envía las consultas a tres modos de razonamiento distintos (Fast, CoT y Deep), optimizados para diferentes tipos de consulta.

AI architecture Qwen2.5 Reasoning LLM

RESEARCHDEV.to AI·hace 17d

The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

Esta investigación explora el mecanismo de entropía del aprendizaje por refuerzo, específicamente su aplicación para mejorar las capacidades de razonamiento en los modelos de lenguaje. Investiga cómo se puede aprovechar la entropía para mejorar el proceso de aprendizaje y la toma de decisiones para un razonamiento más sólido en los modelos de lenguaje.

language models reinforcement learning learning Reasoning

ARTICLEDEV.to AI·hace 19d

Apple Paper Argues LLMs Show 'Illusion of Thinking'

Un artículo de Apple titulado "The Illusion of Thinking" sostiene que los Large Language Models (LLM) carecen de razonamiento genuino, basándose únicamente en la coincidencia de patrones estadísticos. Liderado por Mehrdad Farajtabar, el estudio critica las afirmaciones de proveedores como GPT-4 y Claude, señalando fallas en tareas de razonamiento formal que requieren composicionalidad.

Apple machine learning Reasoning AI

RESEARCHarXiv CS.LG·15/4/2026

When Reasoning Models Hurt Behavioral Simulation: A Solver-Sampler Mismatch in Multi-Agent LLM Negotiation

Este artículo examina cómo la mejora del razonamiento en los modelos de lenguaje puede perjudicar la fidelidad de las simulaciones de comportamiento, especialmente cuando el objetivo es muestrear comportamientos racionalmente limitados en lugar de resolver un problema estratégico. Los autores identifican un "desajuste entre solucionador y muestreador" donde los LLM optimizan en exceso, colapsando los comportamientos orientados al compromiso y resultando en diversidad sin fidelidad en los resultados.

LLMs Strategic Negotiation Behavioral Simulation Reasoning

RESEARCHarXiv CS.CL·15/4/2026

Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration

Esta investigación presenta CURE, un marco novedoso para mejorar la factualidad en la generación de texto largo por LLMs, al enseñarles a razonar sobre la incertidumbre a nivel de afirmación. Busca mitigar la tendencia de los modelos a afirmar errores con confianza, ofreciendo una calibración de incertidumbre granular.

LLMs hallucination uncertainty calibration Reasoning

RESEARCHarXiv CS.LG·14/4/2026

Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model

Esta investigación estudia el Alineamiento Deliberativo en LLMs, un método que busca mejorar la seguridad destilando capacidades de razonamiento de modelos más fuertes. El estudio descubre una brecha de alineamiento entre modelos profesor y alumno, demostrando que los modelos estudiantes pueden retener comportamientos inseguros del modelo base a pesar de aprender patrones de razonamiento avanzados. El trabajo propone un método de muestreo BoN para abordar estos desafíos.

Model Alignment LLMs Deliberative Alignment Reasoning

RESEARCHarXiv CS.CL·5/5/2026

DIAGRAMS: A Review Framework for Reasoning-Level Attribution in Diagram QA

DIAGRAMS es un marco de revisión para la atribución a nivel de razonamiento en la respuesta a preguntas sobre diagramas (Diagram QA). Desvincula la lógica de la interfaz de los formatos de conjuntos de datos específicos a través de un metaesquema y adaptadores, facilitando la selección y generación de evidencia.

attribution Diagram QA machine learning computer vision

RESEARCHarXiv CS.AI·9/5/2026

BALAR : A Bayesian Agentic Loop for Active Reasoning

Este artículo presenta BALAR (Bayesian Agentic Loop for Active Reasoning), un algoritmo de bucle externo agnóstico a la tarea que permite la interacción estructurada en múltiples turnos entre un agente LLM y un usuario. BALAR mantiene una creencia estructurada sobre estados latentes, selecciona preguntas aclaratorias maximizando la información mutua esperada y supera significativamente a los modelos de referencia en diversos puntos de referencia de razonamiento.

LLMs interactive AI Reasoning Bayesian models

RESEARCHarXiv CS.LG·27/4/2026

Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning

Esta investigación estudia la necesidad de tokens de memoria aprendidos como bloc de notas computacional para Transformers Universales con Tiempo de Computación Adaptativo (ACT) en un benchmark de razonamiento combinatorio. Concluye que los tokens de memoria son empíricamente necesarios para un rendimiento no trivial, identificando un umbral inferior pronunciado para el recuento óptimo y una trampa común de inicialización del enrutador.

neural networks deep learning memory Reasoning

RESEARCHarXiv CS.LG·9/4/2026

RAGEN-2: Reasoning Collapse in Agentic RL

Este estudo introduz o conceito de 'colapso de template', uma falha em agentes LLM de múltiplas interações onde a resposta se torna agnóstica à entrada, mesmo com entropia estável. Propõe a Informação Mútua (MI) como uma métrica superior à entropia para diagnosticar a qualidade do raciocínio, correlacionando-se mais fortemente com o desempenho final.

LLMs reinforcement learning Reasoning Evaluation Metrics

RESEARCHarXiv CS.AI·30/4/2026

Grounding vs. Compositionality: On the Non-Complementarity of Reasoning in Neuro-Symbolic Systems

Este trabajo desafía la suposición de que el razonamiento composicional emerge como subproducto del anclaje simbólico en la IA neuro-simbólica. Introduce la arquitectura $i$LTN, demostrando que los modelos entrenados únicamente con un objetivo de anclaje no logran generalizar, siendo crucial el entrenamiento conjunto con anclaje perceptual y razonamiento multi-paso.

Compositional Generalization Reasoning AI Architectures Symbol Grounding

RESEARCHarXiv CS.CL·27/4/2026

Incentivizing Neuro-symbolic Language-based Reasoning in VLMs via Reinforcement Learning

Este trabajo explora el razonamiento en lenguaje neuro-simbólico en VLMs, utilizando Aprendizaje por Refuerzo para mejorar las habilidades analíticas y la eficiencia. Logró un aumento del 3,33% en la precisión en un conjunto de datos de visión-lenguaje y una reducción del 75% en los tokens de razonamiento.

Vision-Language Models reinforcement learning Reasoning Neuro-symbolic AI

RESEARCHarXiv CS.CL·8/4/2026

TDA-RC: Task-Driven Alignment for Knowledge-Based Reasoning Chains in Large Language Models

Este artigo propõe um método baseado em topologia para otimizar cadeias de raciocínio em LLMs, visando superar lacunas lógicas e custos elevados. Ele quantifica características estruturais de CoT, ToT e GoT usando homologia persistente para aprimorar o paradigma CoT.

LLMs Chain-of-Thought Reasoning Tree-of-Thoughts

RESEARCHarXiv CS.AI·hace 25d

Enhanced and Efficient Reasoning in Large Learning Models

Este artículo propone un método eficiente y basado en principios para mejorar el razonamiento en Grandes Modelos de Lenguaje, abordando la actual falta de confianza en el contenido generado. El método implica una etapa de preprocesamiento con un Integracode Relacional Unario, seguida de un proceso de aprendizaje automático simplificado.

model efficiency machine learning Reasoning data preprocessing

RESEARCHarXiv CS.CL·24/4/2026

TRACES: Tagging Reasoning Steps for Adaptive Cost-Efficient Early-Stopping

Este artículo presenta TRACES, un framework ligero diseñado para optimizar los Modelos de Razonamiento del Lenguaje (LRMs) etiquetando los pasos de razonamiento en tiempo real. Permite la detención temprana adaptativa y costo-eficiente de las inferencias de LRM, abordando su ineficiencia actual y la sobre-generación de pasos de verificación.

LLMs early stopping Reasoning inference optimization

RESEARCHarXiv CS.AI·hace 18d

MindLoom: Composing Thought Modes for Frontier-Level Reasoning Data Synthesis

MindLoom es un marco para sintetizar datos de razonamiento de nivel de frontera, abordando la diversidad limitada y el control inestable de la dificultad de los métodos existentes. Descompone las soluciones de los problemas en "cadenas de modos de pensamiento" y entrena un modelo de recuperación para guiar el proceso de razonamiento.

data synthesis Thought Modes LLMs AI frameworks

RESEARCHarXiv CS.CL·7/5/2026

Adapt to Thrive! Adaptive Power-Mean Policy Optimization for Improved LLM Reasoning

Esta investigación propone la Optimización de Política de Media de Potencia Adaptativa (APMPO) para mejorar el razonamiento de Modelos de Lenguaje Grandes (LLMs) mediante RLVR. APMPO utiliza un objetivo de media de potencia generalizado y un recorte adaptable por retroalimentación para mejorar la dinámica de aprendizaje y el rendimiento.

Policy optimization LLMs reinforcement learning machine learning

RESEARCHarXiv CS.CL·7/5/2026

Free Energy-Driven Reinforcement Learning with Adaptive Advantage Shaping for Unsupervised Reasoning in LLMs

FREIA es un algoritmo novedoso de aprendizaje por refuerzo que mejora los LLM para el razonamiento no supervisado, abordando la falta de adaptabilidad en los métodos existentes. Utiliza la Recompensa Impulsada por Energía Libre (FER) para equilibrar el consenso y la exploración, y la Configuración Adaptativa de Ventaja (AAS) para ajustar las señales de aprendizaje. FREIA supera a las bases de referencia no supervisadas en tareas de razonamiento, especialmente en matemáticas.

LLMs reinforcement learning AI algorithms Reasoning