Reasoning

57 items

RESEARCHarXiv CS.AI·hace 1d

Why Limit the Residual Stream to Layers and Not Tokens? Persistent Memory for Continuous Latent Reasoning

Los grandes modelos de lenguaje (LLM) enfrentan una limitación llamada 'cuello de botella de concepto', donde pierden hechos críticos en razonamientos latentes profundos. Este artículo propone AGCLR para abordar esto, aumentando CoCoNuT con un flujo de concepto con puerta para memoria persistente.

machine learning Latent Reasoning Reasoning AI Research

NEWS↑ trendingReddit r/LocalLLaMA·8/4/2026

Meta new reasoning model Muse Spark

O conteúdo anuncia o lançamento do Muse Spark, um novo modelo de raciocínio de IA desenvolvido pela Meta. Este modelo promete avançar as capacidades de raciocínio em inteligência artificial.

Muse Spark Reasoning AI Model Meta

RESEARCHarXiv CS.CL·hace 2d

How Language Models Fail: Token-Level Signatures of Committed and Persistent Reasoning Failures

Las fallas en el razonamiento de los modelos de lenguaje surgen a través de procesos distintos que dejan firmas identificables a nivel de token. Estas fallas se caracterizan como "falla comprometida" o "incertidumbre persistente", y comprender estas firmas ayuda a distinguir los resultados fallidos de los exitosos en varias configuraciones.

language models research Reasoning AI failures

RESEARCHDEV.to AI·hace 14d

Meta-Stanford Survey: Code as Agent Harness Improves AI Reasoning

Un estudio de Meta, Stanford e Illinois propone que los agentes de IA funcionan mejor cuando el código es su capa de trabajo principal, un concepto denominado "agent harness". Este enfoque cambia el foco de la IA de la predicción de texto a un razonamiento ejecutable, mejorando su capacidad para manejar tareas complejas y reducir errores.

agent harness LLMs code Reasoning

RESEARCHarXiv CS.LG·13/4/2026

Robust Reasoning Benchmark

Este estudio propone un nuevo benchmark para evaluar la robustez del razonamiento de los LLMs ante perturbaciones textuales, aplicándolo al conjunto de datos AIME 2024. Los resultados muestran que, mientras los modelos frontera son resilientes, los modelos de código abierto sufren caídas catastróficas de precisión, revelando fragilidades estructurales.

robustness LLMs Model Evaluation Reasoning

RESEARCHarXiv CS.CL·20/4/2026

Think Multilingual, Not Harder: A Data-Efficient Framework for Teaching Reasoning Models to Code-Switch

Esta investigación introduce un marco de ajuste fino (fine-tuning) eficiente en datos para enseñar a los modelos de razonamiento de lenguaje a alternar idiomas (code-switch) de manera efectiva en tareas de razonamiento. Busca identificar comportamientos beneficiosos de alternancia de idiomas, analizando sistemáticamente rastros de razonamiento diversos.

Multilingual AI Code-Switching Reasoning large language models

RESEARCHDEV.to AI·22/4/2026

What VAKRA Reveals About Why Agents Actually Fail

VAKRA, un nuevo benchmark de IBM Research, revela que los agentes de IA fallan de maneras predecibles y estructurales, mapeando puntos de fractura entre el razonamiento, la selección de herramientas y la ejecución. Descompone el fallo del agente en seis categorías específicas, superando las evaluaciones binarias tradicionales para descubrir debilidades comunes.

failure analysis Model Evaluation Benchmarking Reasoning

RESEARCHarXiv CS.CL·24/4/2026

AITP: Traffic Accident Responsibility Allocation via Multimodal Large Language Models

Se presenta AITP, un modelo de lenguaje grande multimodal para la asignación de responsabilidad en accidentes de tráfico, que mejora el razonamiento mediante Multimodal Chain-of-Thought e integra conocimiento legal a través de RAG. La investigación también introduce DecaTARA, un completo benchmark estilo decatlón con 67.941 videos anotados y 195.821 pares de preguntas y respuestas.

multimodal AI Reasoning Benchmarks large language models

RESEARCHDEV.to AI·20/4/2026

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

O1-Pruner presenta un método de ajuste fino que armoniza la longitud para la poda de razonamiento tipo O1. Esta técnica busca optimizar modelos para mejorar sus capacidades de inferencia.

Pruning Reasoning Fine-tuning model optimization

RESEARCHarXiv CS.AI·hace 6d

Consensus is Strategically Insufficient: Reasoning-Trace Disagreement as a Knowledge-Representation Signal

Este artículo sostiene que reducir el desacuerdo en sistemas multiagente es insuficiente para tareas cargadas de valores, proponiendo una capa de representación del conocimiento. Esta capa abstrae las trazas de razonamiento y las decisiones de los agentes en estados simbólicos de desacuerdo, distinguiendo cuatro tipos, con aplicación en la moderación de contenido.

Disagreement Knowledge Representation Reasoning content moderation

RESEARCHarXiv CS.CL·9/4/2026

The Stepwise Informativeness Assumption: Why are Entropy Dynamics and Reasoning Correlated in LLMs?

Este artigo investiga a correlação entre a dinâmica interna de entropia e o raciocínio correto em Large Language Models (LLMs), um enigma ainda sem solução. Propõe a Hipótese de Informatividade Gradual (SIA), que afirma que os modelos raciocinam corretamente ao acumular informações relevantes sobre a resposta por meio de prefixos informativos, um processo reforçado por métodos de treinamento padrão.

information theory LLMs machine learning Reasoning

RESEARCHarXiv CS.AI·4/5/2026

Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents

Esta investigación desafía la suposición de que el razonamiento con herramientas siempre mejora el rendimiento de los LLMs, demostrando que puede ser superado por CoT nativo debido a un "impuesto por uso de herramientas", especialmente con distractores semánticos. Se propone un marco de intervención factorizado para analizar esto y se introduce G-STEP como mitigación parcial para errores inducidos por el protocolo.

LLM Agents Reasoning AI performance tool use

RESEARCHarXiv CS.CL·hace 20d

Long-Context Reasoning Through Proxy-Based Chain-of-Thought Tuning

Los grandes modelos de lenguaje tienen un rendimiento deficiente en tareas de razonamiento de contexto largo a pesar de admitir entradas extensas. ProxyCoT propone una nueva estructura de entrenamiento que transfiere las capacidades de razonamiento de contextos proxy cortos a contextos largos completos, superando a los modelos base.

machine learning Natural Language Processing Reasoning large language models

RESEARCHarXiv CS.AI·hace 7d

Visual Graph Scaffolds for Structural Reasoning in Large Language Models

Esta investigación explora el uso de andamios de grafos visuales para organizar el razonamiento en Grandes Modelos de Lenguaje (LLMs), inspirándose en los mapas mentales humanos. Experimentos en tareas de respuesta a preguntas de varios saltos revelan que la guía visual de grafos mejora significativamente la eficiencia del razonamiento y la calidad de las respuestas en comparación con las representaciones textuales.

LLMs Graph Structures Reasoning artificial intelligence

RESEARCHarXiv CS.CL·10/4/2026

Reasoning-Based Refinement of Unsupervised Text Clusters with LLMs

Este artigo propõe uma estrutura de refinamento baseada em raciocínio que utiliza LLMs como juízes semânticos para validar e reestruturar os resultados de algoritmos de agrupamento de texto não supervisionados. A estrutura inclui verificação de coerência, adjudicação de redundância e fundamentação de rótulos, visando melhorar a qualidade dos clusters sem dados rotulados.

LLMs Text Clustering Reasoning semantic analysis

RESEARCHarXiv CS.LG·hace 16d

When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions

Esta investigación propone que el razonamiento de los LLM es un estado de decodificación dinámico, no una propiedad estática, observable a través de la dinámica de entropía en las primeras etapas durante la generación. Las tareas que se benefician de Chain-of-Thought muestran una reducción consistente de la entropía, interpretada como una transición de fase a un régimen de razonamiento estructurado.

AI models LLMs Chain-of-Thought Reasoning

RESEARCHarXiv CS.AI·6/4/2026

Compositional Neuro-Symbolic Reasoning

O título refere-se à pesquisa sobre raciocínio neuro-simbólico composicional, uma área avançada da inteligência artificial. Este campo explora a integração de redes neurais com sistemas simbólicos para permitir raciocínio mais robusto e estruturado.

Compositionality Reasoning Neuro-symbolic AI

RESEARCHarXiv CS.LG·15/4/2026

How Transformers Learn to Plan via Multi-Token Prediction

Este artículo estudia cómo la Predicción Multi-Token (MTP) permite a los Transformers aprender a planificar, superando la Predicción de Siguiente Token (NTP). Empíricamente, MTP mejora el rendimiento en tareas de razonamiento, y teóricamente, induce un proceso de razonamiento inverso de dos etapas mediante el desacoplamiento de gradientes.

Next-token prediction Planning Multi-Token Prediction Reasoning

ARTICLEGoogle for Developers (YouTube)·hace 19d

Building agents with real-world reasoning

Este contenido explora las metodologías y desafíos involucrados en el desarrollo de agentes de IA capaces de un razonamiento sólido en el mundo real. Profundiza en las técnicas necesarias para permitir que los agentes interactúen eficazmente con entornos complejos y dinámicos.

agent development Reasoning real-world AI AI agents

Building agents with real-world reasoning

RESEARCHarXiv CS.AI·13/4/2026

StaRPO: Stability-Augmented Reinforcement Policy Optimization

StaRPO es un nuevo marco de aprendizaje por refuerzo diseñado para mejorar la consistencia lógica de los grandes modelos de lenguaje en tareas de razonamiento complejas. Incorpora explícitamente métricas de estabilidad, como la Función de Autocorrelación y la Eficiencia de la Ruta, para evaluar la coherencia local y la direccionalidad global del proceso de razonamiento.

Policy optimization LLMs reinforcement learning Reasoning