AI Reasoning

20 items

RESEARCHarXiv CS.AI·il y a 20h

Improving Multimodal Reasoning via Worst Dimension Optimization

Le raisonnement multimodal exige le maintien de l'intégrité à travers diverses contraintes, telles que l'ancrage visuel et la cohérence logique. Les modèles de récompense de processus actuels masquent souvent les défaillances de dimensions individuelles en pondérant les facteurs de manière égale, compromettant le processus de raisonnement global.

Optimization multimodal AI machine learning AI Reasoning

RESEARCH↑ trendingReddit r/MachineLearning·13/04/2026

Thinking Deeper, Not Longer: Depth-Recurrent Transformers for Compositional Generalization [R]

Ce contenu discute d'un article de recherche sur les Transformers Récurents en Profondeur, soulignant ses découvertes sur la généralisation compositionnelle et hors distribution. Il explore comment la supervision des étapes intermédiaires peut nuire au raisonnement authentique des modèles d'IA, les rendant excessivement dépendants des heuristiques statistiques, un concept étendu aux modèles fondamentaux et à l'intuition humaine.

OOD Generalization Compositional Generalization AI Reasoning Intermediate Supervision

RESEARCHDEV.to AI·22/04/2026

Towards Large Reasoning Models: A Survey of Reinforced Reasoning with LargeLanguage Models

Cette étude explore les grands modèles de raisonnement, en se penchant sur l'application des techniques de raisonnement renforcé aux grands modèles de langage. Elle fournit un aperçu complet des méthodes actuelles et des progrès pour améliorer les capacités de raisonnement des LLM.

Survey reinforced learning AI Reasoning large language models

RESEARCHarXiv CS.CL·il y a 13j

Why LLMs Hallucinate on Structured Knowledge: A Mechanistic Analysis of Reasoning over Linearized Representations

Cette étude examine pourquoi les LLM hallucinent lors du raisonnement sur des connaissances structurées linéarisées. Elle révèle que les hallucinations proviennent de dynamiques internes systématiques, telles que l'attention se concentrant sur des indices raccourcis et l'incapacité des couches feed-forward à ancrer les connaissances fournies.

neural networks hallucination Knowledge Representation AI Reasoning

RESEARCHarXiv CS.AI·il y a 26j

CHAL: Council of Hierarchical Agentic Language

Le CHAL (Council of Hierarchical Agentic Language) est un nouveau cadre dialectique multi-agents proposé pour optimiser les croyances dans les domaines réfutables. Il aborde les limites actuelles du débat multi-agents pour le raisonnement des LLM, où l'argumentation réfutable est traitée comme un moteur d'optimisation des croyances.

dialectic frameworks LLMs belief optimization AI Reasoning

RESEARCHarXiv CS.AI·20/04/2026

LLM Reasoning Is Latent, Not the Chain of Thought

Ce document de position soutient que le raisonnement des LLM doit être étudié comme une formation de trajectoire d'état latent plutôt que comme une chaîne de pensée (CoT) superficielle et fidèle. Il formalise trois hypothèses concurrentes sur l'objet primaire du raisonnement, impactant la fidélité, l'interprétabilité et les benchmarks.

Chain-of-Thought interpretability AI Reasoning large language models

RESEARCHarXiv CS.AI·il y a 29j

When Does Critique Improve AI-Assisted Theoretical Physics? SCALAR: Structured Critic--Actor Loop for Agentic Reasoning

Cet article présente SCALAR (Structured Critic--Actor Loop for AI Reasoning), un pipeline Actor--Critic--Judge appliqué aux problèmes de physique théorique. Il étudie comment l'interaction entre les chercheurs et les agents IA affecte les résultats des tâches de raisonnement en physique, démontrant que le dialogue multi-tour améliore considérablement les tentatives en un seul coup.

theoretical physics AI Reasoning Agentic AI large language models

ARTICLEDEV.to AI·13/04/2026

AI Agent Black Boxes Have Two Layers — Technical Limits and Business Incentives

Le texte explore l'évolution du Chain-of-Thought (CoT), passant d'une technique externe d'ingénierie de prompt à une capacité de raisonnement interne dans les modèles d'IA avancés. Des recherches indiquent que l'application externe du CoT est désormais inefficace, le processus de raisonnement ayant été internalisé.

prompt engineering Chain-of-Thought AI Reasoning AI

RESEARCHarXiv CS.AI·20/04/2026

LACE: Lattice Attention for Cross-thread Exploration

LACE est un nouveau cadre qui permet aux Grands Modèles de Langage (LLMs) de coordonner et de partager des informations entre plusieurs chemins de raisonnement parallèles grâce à l'attention inter-threads. Il utilise un pipeline de données synthétiques pour enseigner la correction d'erreurs collaborative, améliorant la précision du raisonnement de plus de 7 points.

synthetic data LLMs attention mechanisms AI Reasoning

ARTICLEDEV.to AI·il y a 20j

Judea Pearl's Ladder of Causation and the Limits of LLM Reasoning

Cet article explore les limitations fondamentales des grands modèles de langage (LLM) en matière de raisonnement causal, en se référant à l'Échelle de la Causalité de Judea Pearl. Il souligne que les LLM opèrent souvent au plus bas échelon de l'association, ne parvenant pas à identifier les vraies causes et se contentant de corriger des corrélations, ce qui explique les erreurs courantes des outils d'IA.

AI limitations Judea Pearl causality AI Reasoning

RESEARCHarXiv CS.AI·22/04/2026

AI scientists produce results without reasoning scientifically

Les systèmes basés sur les LLM mènent de la recherche scientifique autonome, mais leur raisonnement ne respecte pas les normes épistémiques, ignorant les preuves dans 68 % des cas. Une étude sur 25 000 exécutions a montré que les modèles de base déterminent la performance et le comportement de l'agent.

LLMs AI Reasoning AI agents scientific research

RESEARCHarXiv CS.AI·il y a 6j

Thinking Past the Answer: Evaluating Harmful Overthinking in Large Reasoning Models

Cet article évalue la "surréflexion nuisible" dans les grands modèles de raisonnement, où un raisonnement continu après une réponse correcte peut déstabiliser la trajectoire. Il introduit un protocole pour distinguer la surréflexion verbeuse de la nuisible, identifiant des problèmes dans les benchmarks multimodaux.

multimodal AI Overthinking Model Evaluation AI Reasoning

RESEARCHarXiv CS.CL·30/04/2026

CogRAG+: Cognitive-Level Guided Diagnosis and Remediation of Memory and Reasoning Deficiencies in Professional Exam QA

CogRAG+ est un cadre sans entraînement conçu pour diagnostiquer et remédier aux lacunes de mémoire et de raisonnement des grands modèles linguistiques dans les examens professionnels. Il découple et aligne la récupération et le raisonnement avec les hiérarchies cognitives humaines, employant le Reinforced Retrieval et le Constrained Reasoning pour améliorer la précision et la cohérence.

Retrieval Augmented Generation natural language processing AI Reasoning large language models

RESEARCHarXiv CS.AI·il y a 29j

GraphDC: A Divide-and-Conquer Multi-Agent System for Scalable Graph Algorithm Reasoning

Cet article présente GraphDC, un système multi-agent de type « Diviser pour régner » conçu pour améliorer le raisonnement des algorithmes de graphe dans les grands modèles linguistiques (LLM). Il améliore les performances en décomposant les grands graphes en sous-graphes plus petits pour des agents spécialisés, avec un agent maître intégrant les résultats, ce qui conduit à une meilleure évolutivité et robustesse.

LLMs scalable AI AI Reasoning multi-agent systems

RESEARCHarXiv CS.CL·il y a 26j

Correct Answers from Sound Reasoning: Verifiable Process Supervision for Language Models

Cet article propose la Supervision de Processus Vérifiable (VPS), un cadre de post-entraînement visant à optimiser simultanément la précision de la prédiction et la qualité du raisonnement des modèles linguistiques. Le VPS utilise un réglage fin supervisé pour induire un format de raisonnement structuré, évaluant les affirmations intermédiaires par rapport à des signaux de vérité terrain avec une pondération adaptative des récompenses.

language models reinforcement learning AI training verifiable AI

RESEARCHarXiv CS.AI·il y a 27j

Do Vision-Language-Models show human-like logical problem-solving capability in point and click puzzle games?

Cet article introduit VLATIM, un nouveau benchmark conçu pour évaluer les capacités de résolution de problèmes logiques similaires à celles des humains chez les modèles vision-langage (VLMs) dans les jeux de réflexion de physique "pointer-cliquer". Il révèle une disparité significative entre le raisonnement et l'exécution chez les grands modèles propriétaires lors de la résolution du jeu The Incredible Machine 2.

puzzle games Vision-Language Models interactive AI Benchmarking

RESEARCHarXiv CS.AI·il y a 27j

The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes

La distillation on-policy (OPD) et l'autodistillation on-policy (OPSD) sont des méthodes post-entraînement prometteuses pour les grands modèles de langage, mais leur efficacité varie. Cette étude examine empiriquement leurs réussites et échecs, identifiant des sensibilités au choix de l'enseignant et des problèmes d'information privilégiée.

LLMs distillation learning machine learning

RESEARCHarXiv CS.CL·il y a 28j

AIPO: : Learning to Reason from Active Interaction

AIPO est un nouveau cadre d'apprentissage par renforcement qui améliore le raisonnement des LLM grâce à une interaction multi-agents active lors de l'exploration. Il s'attaque aux limites des algorithmes de RL existants, qui sont contraints par les capacités intrinsèques du modèle de politique et s'appuient sur un guidage inefficace.

LLMs reinforcement learning learning AI Reasoning

RESEARCHarXiv CS.AI·06/05/2026

CreativityBench: Evaluating Agent Creative Reasoning via Affordance-Based Tool Repurposing

Cet article introduit CreativityBench, un nouveau benchmark pour évaluer la capacité de raisonnement créatif des LLM via la réaffectation d'outils basée sur les affordances. Il détaille la construction d'une base de connaissances d'affordances à grande échelle et la génération de 14 000 tâches nécessitant des solutions non évidentes mais physiquement plausibles.

AI Creativity Benchmarking AI Reasoning tool use

RESEARCHarXiv CS.AI·il y a 21j

TTE-Flash: Accelerating Reasoning-based Multimodal Representations via Think-Then-Embed Tokens

Ce travail propose TTE-Flash, une méthode pour accélérer les représentations multimodales basées sur le raisonnement en remplaçant le raisonnement explicite de la Chaîne de Pensée (CoT) par des jetons de pensée latents. Il vise à obtenir des représentations de haute performance et sensibles au raisonnement à un coût d'inférence constant.

neural networks multimodal AI machine learning Computational Efficiency