← heapsort-ai

AI Reasoning

20 items

RESEARCH↑ trendingReddit r/MachineLearning·13/4/2026

Thinking Deeper, Not Longer: Depth-Recurrent Transformers for Compositional Generalization [R]

Este contenido analiza un artículo de investigación sobre Transformers Recurrentes en Profundidad, destacando sus hallazgos sobre la generalización composicional y fuera de distribución. Explora cómo la supervisión de pasos intermedios puede obstaculizar el razonamiento genuino en los modelos de IA, haciéndolos demasiado dependientes de heurísticas estadísticas, un concepto extendido a los modelos fundacionales y la intuición humana.

42
RESEARCHarXiv CS.CL·hace 13d

Why LLMs Hallucinate on Structured Knowledge: A Mechanistic Analysis of Reasoning over Linearized Representations

El estudio investiga por qué los LLM alucinan al razonar sobre conocimiento estructurado linealizado. Revela que las alucinaciones surgen de dinámicas internas sistemáticas, como la atención que se concentra en atajos y las capas feed-forward que no logran fundamentar el conocimiento proporcionado.

29
RESEARCHarXiv CS.AI·hace 29d

When Does Critique Improve AI-Assisted Theoretical Physics? SCALAR: Structured Critic--Actor Loop for Agentic Reasoning

Este artículo presenta SCALAR (Structured Critic--Actor Loop for AI Reasoning), un pipeline Actor--Critic--Judge aplicado a problemas de física teórica. Investiga cómo la interacción entre investigadores y agentes de IA afecta los resultados en tareas de razonamiento físico, demostrando que el diálogo de múltiples turnos mejora significativamente los intentos de un solo disparo.

28
ARTICLEDEV.to AI·hace 20d

Judea Pearl's Ladder of Causation and the Limits of LLM Reasoning

Este artículo explora las limitaciones fundamentales de los Modelos de Lenguaje Grandes (LLMs) en el razonamiento causal, haciendo referencia a la Escalera de la Causalidad de Judea Pearl. Destaca que los LLMs a menudo operan en el nivel más bajo de asociación, fallando en identificar causas verdaderas y, en su lugar, parcheando correlaciones, lo que explica errores comunes en las herramientas de IA.

27
RESEARCHarXiv CS.AI·hace 6d

Thinking Past the Answer: Evaluating Harmful Overthinking in Large Reasoning Models

Este artículo evalúa el "exceso de pensamiento perjudicial" en Modelos de Razonamiento Grandes, donde el razonamiento continuo después de una respuesta correcta puede desestabilizar la trayectoria. Introduce un protocolo para diferenciar el exceso de pensamiento redundante del perjudicial, identificando problemas en benchmarks multimodales.

27
RESEARCHarXiv CS.CL·30/4/2026

CogRAG+: Cognitive-Level Guided Diagnosis and Remediation of Memory and Reasoning Deficiencies in Professional Exam QA

CogRAG+ es un marco sin entrenamiento diseñado para diagnosticar y remediar deficiencias de memoria y razonamiento en LLMs para exámenes profesionales. Desacopla y alinea la recuperación y el razonamiento con jerarquías cognitivas humanas, utilizando estrategias como Reinforced Retrieval y Constrained Reasoning para mejorar la precisión y consistencia.

27
RESEARCHarXiv CS.AI·hace 29d

GraphDC: A Divide-and-Conquer Multi-Agent System for Scalable Graph Algorithm Reasoning

Este artículo presenta GraphDC, un sistema multiagente de "Divide y Vencerás" diseñado para mejorar el razonamiento de algoritmos de grafos en Large Language Models (LLMs). Mejora el rendimiento al descomponer grafos grandes en subgrafos más pequeños para agentes especializados, con un agente maestro integrando los resultados, lo que lleva a una mayor escalabilidad y robustez.

27
RESEARCHarXiv CS.CL·hace 26d

Correct Answers from Sound Reasoning: Verifiable Process Supervision for Language Models

Este artículo propone la Supervisión de Proceso Verificable (VPS), un marco de post-entrenamiento para optimizar conjuntamente la precisión de predicción y la calidad del razonamiento en modelos de lenguaje. VPS emplea ajuste fino supervisado para inducir un formato de razonamiento estructurado, evaluando afirmaciones intermedias con señales de verdad fundamental y ponderación adaptativa de recompensas.

27
RESEARCHarXiv CS.AI·hace 27d

Do Vision-Language-Models show human-like logical problem-solving capability in point and click puzzle games?

Este artículo presenta VLATIM, un nuevo benchmark para evaluar la capacidad de resolución de problemas lógicos similares a los humanos en modelos de visión-lenguaje (VLMs) en juegos de rompecabezas de física "point-and-click". Revela una disparidad significativa entre el razonamiento y la ejecución en grandes modelos propietarios al resolver el juego The Incredible Machine 2.

27
RESEARCHarXiv CS.AI·hace 27d

The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes

La destilación on-policy (OPD) y la autodestilación on-policy (OPSD) son métodos prometedores de post-entrenamiento para grandes modelos de lenguaje, pero su eficacia es mixta. Esta investigación estudia empíricamente cuándo y por qué funcionan o fallan, identificando sensibilidades a la elección del profesor e inconvenientes con la información privilegiada.

27
RESEARCHarXiv CS.AI·6/5/2026

CreativityBench: Evaluating Agent Creative Reasoning via Affordance-Based Tool Repurposing

Este artículo presenta CreativityBench, un nuevo benchmark para evaluar la capacidad de razonamiento creativo de los LLM mediante la reutilización de herramientas basada en affordances. Detalla la construcción de una base de conocimiento de affordances a gran escala y la generación de 14 mil tareas que requieren soluciones no obvias pero físicamente plausibles.

27
RESEARCHarXiv CS.AI·hace 21d

TTE-Flash: Accelerating Reasoning-based Multimodal Representations via Think-Then-Embed Tokens

Este trabajo propone TTE-Flash, un método para acelerar representaciones multimodales basadas en razonamiento, reemplazando el razonamiento explícito de Cadena de Pensamiento (CoT) con tokens de pensamiento latentes. Busca lograr representaciones de alto rendimiento y conscientes del razonamiento con un coste de inferencia constante.

27