← heapsort-ai

AI Reasoning

20 items

RESEARCHarXiv CS.AI·il y a 20h

Improving Multimodal Reasoning via Worst Dimension Optimization

Le raisonnement multimodal exige le maintien de l'intégrité à travers diverses contraintes, telles que l'ancrage visuel et la cohérence logique. Les modèles de récompense de processus actuels masquent souvent les défaillances de dimensions individuelles en pondérant les facteurs de manière égale, compromettant le processus de raisonnement global.

54
RESEARCH↑ trendingReddit r/MachineLearning·13/04/2026

Thinking Deeper, Not Longer: Depth-Recurrent Transformers for Compositional Generalization [R]

Ce contenu discute d'un article de recherche sur les Transformers Récurents en Profondeur, soulignant ses découvertes sur la généralisation compositionnelle et hors distribution. Il explore comment la supervision des étapes intermédiaires peut nuire au raisonnement authentique des modèles d'IA, les rendant excessivement dépendants des heuristiques statistiques, un concept étendu aux modèles fondamentaux et à l'intuition humaine.

42
RESEARCHarXiv CS.CL·il y a 13j

Why LLMs Hallucinate on Structured Knowledge: A Mechanistic Analysis of Reasoning over Linearized Representations

Cette étude examine pourquoi les LLM hallucinent lors du raisonnement sur des connaissances structurées linéarisées. Elle révèle que les hallucinations proviennent de dynamiques internes systématiques, telles que l'attention se concentrant sur des indices raccourcis et l'incapacité des couches feed-forward à ancrer les connaissances fournies.

29
RESEARCHarXiv CS.AI·il y a 29j

When Does Critique Improve AI-Assisted Theoretical Physics? SCALAR: Structured Critic--Actor Loop for Agentic Reasoning

Cet article présente SCALAR (Structured Critic--Actor Loop for AI Reasoning), un pipeline Actor--Critic--Judge appliqué aux problèmes de physique théorique. Il étudie comment l'interaction entre les chercheurs et les agents IA affecte les résultats des tâches de raisonnement en physique, démontrant que le dialogue multi-tour améliore considérablement les tentatives en un seul coup.

28
RESEARCHarXiv CS.AI·20/04/2026

LACE: Lattice Attention for Cross-thread Exploration

LACE est un nouveau cadre qui permet aux Grands Modèles de Langage (LLMs) de coordonner et de partager des informations entre plusieurs chemins de raisonnement parallèles grâce à l'attention inter-threads. Il utilise un pipeline de données synthétiques pour enseigner la correction d'erreurs collaborative, améliorant la précision du raisonnement de plus de 7 points.

27
ARTICLEDEV.to AI·il y a 20j

Judea Pearl's Ladder of Causation and the Limits of LLM Reasoning

Cet article explore les limitations fondamentales des grands modèles de langage (LLM) en matière de raisonnement causal, en se référant à l'Échelle de la Causalité de Judea Pearl. Il souligne que les LLM opèrent souvent au plus bas échelon de l'association, ne parvenant pas à identifier les vraies causes et se contentant de corriger des corrélations, ce qui explique les erreurs courantes des outils d'IA.

27
RESEARCHarXiv CS.CL·30/04/2026

CogRAG+: Cognitive-Level Guided Diagnosis and Remediation of Memory and Reasoning Deficiencies in Professional Exam QA

CogRAG+ est un cadre sans entraînement conçu pour diagnostiquer et remédier aux lacunes de mémoire et de raisonnement des grands modèles linguistiques dans les examens professionnels. Il découple et aligne la récupération et le raisonnement avec les hiérarchies cognitives humaines, employant le Reinforced Retrieval et le Constrained Reasoning pour améliorer la précision et la cohérence.

27
RESEARCHarXiv CS.AI·il y a 29j

GraphDC: A Divide-and-Conquer Multi-Agent System for Scalable Graph Algorithm Reasoning

Cet article présente GraphDC, un système multi-agent de type « Diviser pour régner » conçu pour améliorer le raisonnement des algorithmes de graphe dans les grands modèles linguistiques (LLM). Il améliore les performances en décomposant les grands graphes en sous-graphes plus petits pour des agents spécialisés, avec un agent maître intégrant les résultats, ce qui conduit à une meilleure évolutivité et robustesse.

27
RESEARCHarXiv CS.CL·il y a 26j

Correct Answers from Sound Reasoning: Verifiable Process Supervision for Language Models

Cet article propose la Supervision de Processus Vérifiable (VPS), un cadre de post-entraînement visant à optimiser simultanément la précision de la prédiction et la qualité du raisonnement des modèles linguistiques. Le VPS utilise un réglage fin supervisé pour induire un format de raisonnement structuré, évaluant les affirmations intermédiaires par rapport à des signaux de vérité terrain avec une pondération adaptative des récompenses.

27
RESEARCHarXiv CS.AI·il y a 27j

Do Vision-Language-Models show human-like logical problem-solving capability in point and click puzzle games?

Cet article introduit VLATIM, un nouveau benchmark conçu pour évaluer les capacités de résolution de problèmes logiques similaires à celles des humains chez les modèles vision-langage (VLMs) dans les jeux de réflexion de physique "pointer-cliquer". Il révèle une disparité significative entre le raisonnement et l'exécution chez les grands modèles propriétaires lors de la résolution du jeu The Incredible Machine 2.

27
RESEARCHarXiv CS.AI·06/05/2026

CreativityBench: Evaluating Agent Creative Reasoning via Affordance-Based Tool Repurposing

Cet article introduit CreativityBench, un nouveau benchmark pour évaluer la capacité de raisonnement créatif des LLM via la réaffectation d'outils basée sur les affordances. Il détaille la construction d'une base de connaissances d'affordances à grande échelle et la génération de 14 000 tâches nécessitant des solutions non évidentes mais physiquement plausibles.

27
RESEARCHarXiv CS.AI·il y a 21j

TTE-Flash: Accelerating Reasoning-based Multimodal Representations via Think-Then-Embed Tokens

Ce travail propose TTE-Flash, une méthode pour accélérer les représentations multimodales basées sur le raisonnement en remplaçant le raisonnement explicite de la Chaîne de Pensée (CoT) par des jetons de pensée latents. Il vise à obtenir des représentations de haute performance et sensibles au raisonnement à un coût d'inférence constant.

27