Reasoning

57 items

RESEARCHarXiv CS.AI·22/04/2026

From Natural Language to Executable Narsese: A Neuro-Symbolic Benchmark and Pipeline for Reasoning with NARS

Cet article présente un cadre neuro-symbolique pour traduire les problèmes de raisonnement en langage naturel en Narsese exécutable, en utilisant la logique du premier ordre. Il introduit NARS-Reasoning-v0.1, un nouveau benchmark proposant des problèmes de raisonnement avec leurs représentations formelles et des étiquettes de vérité pour évaluer les capacités de raisonnement.

LLMs Reasoning Benchmarks Neuro-symbolic AI

ARTICLEDEV.to AI·il y a 28j

DeepMind’s CEO Says AGI May Be ~4 Years Away. The Last Three Missing Pieces Are Not What Most People Think.

Demis Hassabis, PDG de Google DeepMind, prédit que l'AGI pourrait arriver vers 2030, identifiant trois pièces manquantes critiques dans l'IA actuelle : l'apprentissage continu, le raisonnement à long terme et la mémoire réelle. Il décrit les modèles actuels comme présentant une "intelligence inégale", avec de fortes réussites et des échecs fragiles.

DeepMind AGI Reasoning AI development

DOCDEV.to AI·25/04/2026

Tian AI Thinker: Building a Three-Layer LLM Reasoning Engine

Le Tian AI Thinker est le cœur cognitif de Tian AI, orchestrant un modèle local Qwen2.5-1.5B via un ThinkerRouter. Ce routeur distribue les requêtes à trois modes de raisonnement distincts (Fast, CoT et Deep), chacun optimisé pour différents types de requêtes.

AI architecture Qwen2.5 Reasoning LLM

RESEARCHDEV.to AI·il y a 17j

The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

Cette recherche explore le mécanisme d'entropie de l'apprentissage par renforcement, spécifiquement son application pour améliorer les capacités de raisonnement dans les modèles de langage. Elle étudie comment l'entropie peut être exploitée pour améliorer le processus d'apprentissage et la prise de décision pour un raisonnement plus robuste des modèles de langage.

language models reinforcement learning learning Reasoning

ARTICLEDEV.to AI·il y a 19j

Apple Paper Argues LLMs Show 'Illusion of Thinking'

Un article d'Apple intitulé "The Illusion of Thinking" affirme que les grands modèles linguistiques (LLM) ne possèdent pas de véritable raisonnement, se basant uniquement sur la correspondance statistique de motifs. Dirigée par Mehrdad Farajtabar, l'étude critique les affirmations de fournisseurs comme GPT-4 et Claude, soulignant des échecs dans les tâches de raisonnement formel exigeant la compositionnalité.

Apple machine learning Reasoning AI

RESEARCHarXiv CS.LG·15/04/2026

When Reasoning Models Hurt Behavioral Simulation: A Solver-Sampler Mismatch in Multi-Agent LLM Negotiation

Cet article analyse comment le renforcement du raisonnement dans les modèles de langage peut nuire à la fidélité des simulations comportementales, surtout lorsque l'objectif est d'échantillonner des comportements rationnellement limités plutôt que de résoudre un problème stratégique. Les auteurs mettent en évidence un "déséquilibre entre solutionneur et échantillonneur" où les LLM sur-optimisent, réduisant les comportements de compromis et entraînant une diversité sans fidélité dans les résultats.

LLMs Strategic Negotiation Behavioral Simulation Reasoning

RESEARCHarXiv CS.CL·15/04/2026

Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration

Cette recherche introduit CURE, un cadre novateur visant à améliorer la factualité de la génération de texte long par les LLM, en leur apprenant à raisonner sur l'incertitude au niveau de chaque affirmation. Il vise à dépasser la limite des modèles qui énoncent souvent des affirmations incorrectes avec confiance, en se concentrant sur une calibration granulaire de l'incertitude.

LLMs hallucination uncertainty calibration Reasoning

RESEARCHarXiv CS.LG·14/04/2026

Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model

Cette recherche examine l'Alignement Délibératif dans les LLM, une méthode conçue pour approfondir la sécurité en distillant les capacités de raisonnement de modèles plus performants. Elle révèle un écart d'alignement entre les modèles enseignant et étudiant, montrant que les modèles étudiants peuvent conserver des comportements dangereux du modèle de base malgré l'apprentissage de schémas de raisonnement avancés. L'article propose une méthode d'échantillonnage BoN pour relever ces défis.

Model Alignment LLMs Deliberative Alignment Reasoning

RESEARCHarXiv CS.CL·05/05/2026

DIAGRAMS: A Review Framework for Reasoning-Level Attribution in Diagram QA

DIAGRAMS est un cadre d'examen pour l'attribution au niveau du raisonnement dans la réponse aux questions sur les diagrammes (Diagram QA). Il découple la logique de l'interface des formats de données spécifiques via un méta-schéma et des adaptateurs, facilitant la sélection et la génération de preuves.

attribution Diagram QA machine learning computer vision

RESEARCHarXiv CS.AI·09/05/2026

BALAR : A Bayesian Agentic Loop for Active Reasoning

Cet article présente BALAR (Bayesian Agentic Loop for Active Reasoning), un algorithme de boucle externe indépendant de la tâche qui permet une interaction structurée en plusieurs tours entre un agent LLM et un utilisateur. BALAR maintient une croyance structurée sur les états latents, sélectionne les questions de clarification en maximisant l'information mutuelle attendue et surpasse significativement les bases de référence sur divers benchmarks de raisonnement.

LLMs interactive AI Reasoning Bayesian models

RESEARCHarXiv CS.LG·27/04/2026

Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning

Cette recherche étudie la nécessité des jetons de mémoire appris comme bloc-notes computationnel pour les Universal Transformers avec Temps de Calcul Adaptatif (ACT) sur un benchmark de raisonnement combinatoire. Elle conclut que les jetons de mémoire sont empiriquement nécessaires pour une performance non triviale, identifiant un seuil inférieur net pour le nombre optimal et un piège courant d'initialisation de routeur.

neural networks deep learning memory Reasoning

RESEARCHarXiv CS.LG·09/04/2026

RAGEN-2: Reasoning Collapse in Agentic RL

Este estudo introduz o conceito de 'colapso de template', uma falha em agentes LLM de múltiplas interações onde a resposta se torna agnóstica à entrada, mesmo com entropia estável. Propõe a Informação Mútua (MI) como uma métrica superior à entropia para diagnosticar a qualidade do raciocínio, correlacionando-se mais fortemente com o desempenho final.

LLMs reinforcement learning Reasoning Evaluation Metrics

RESEARCHarXiv CS.AI·30/04/2026

Grounding vs. Compositionality: On the Non-Complementarity of Reasoning in Neuro-Symbolic Systems

Ce travail remet en question l'hypothèse selon laquelle le raisonnement compositionnel émerge comme un sous-produit de l'ancrage symbolique dans l'IA neuro-symbolique. Il introduit l'architecture $i$LTN, montrant que les modèles entraînés uniquement sur un objectif d'ancrage échouent à généraliser, tandis qu'un entraînement conjoint sur l'ancrage perceptuel et le raisonnement multi-étapes est crucial.

Compositional Generalization Reasoning AI Architectures Symbol Grounding

RESEARCHarXiv CS.CL·27/04/2026

Incentivizing Neuro-symbolic Language-based Reasoning in VLMs via Reinforcement Learning

Ce travail explore le raisonnement en langage neuro-symbolique dans les VLMs, utilisant l'apprentissage par renforcement pour améliorer les capacités analytiques et l'efficacité. Il a obtenu une augmentation de 3,33% de la précision sur un ensemble de données vision-langage et une réduction de 75% des tokens de raisonnement.

Vision-Language Models reinforcement learning Reasoning Neuro-symbolic AI

RESEARCHarXiv CS.CL·08/04/2026

TDA-RC: Task-Driven Alignment for Knowledge-Based Reasoning Chains in Large Language Models

Este artigo propõe um método baseado em topologia para otimizar cadeias de raciocínio em LLMs, visando superar lacunas lógicas e custos elevados. Ele quantifica características estruturais de CoT, ToT e GoT usando homologia persistente para aprimorar o paradigma CoT.

LLMs Chain-of-Thought Reasoning Tree-of-Thoughts

RESEARCHarXiv CS.AI·il y a 24j

Enhanced and Efficient Reasoning in Large Learning Models

Cet article propose une méthode efficiente et basée sur des principes pour améliorer le raisonnement dans les Grands Modèles de Langage, s'attaquant au manque actuel de confiance dans le contenu produit. La méthode comprend une étape de pré-traitement avec un Integracode Relationnel Unaire, suivie d'un processus d'apprentissage automatique rationalisé.

model efficiency machine learning Reasoning data preprocessing

RESEARCHarXiv CS.CL·24/04/2026

TRACES: Tagging Reasoning Steps for Adaptive Cost-Efficient Early-Stopping

Cet article présente TRACES, un framework léger conçu pour optimiser les Modèles de Raisonnement Linguistique (LRMs) en étiquetant les étapes de raisonnement en temps réel. Il permet un arrêt précoce adaptatif et rentable des inférences LRM, s'attaquant à leur inefficacité actuelle et à la sur-génération d'étapes de vérification.

LLMs early stopping Reasoning Inference Optimization

RESEARCHarXiv CS.AI·il y a 17j

MindLoom: Composing Thought Modes for Frontier-Level Reasoning Data Synthesis

MindLoom est un cadre pour synthétiser des données de raisonnement de niveau avancé, s'attaquant à la diversité limitée et au contrôle instable de la difficulté des méthodes existantes. Il décompose les solutions de problèmes en "chaînes de modes de pensée" et entraîne un modèle de récupération pour guider le processus de raisonnement.

data synthesis Thought Modes LLMs AI frameworks

RESEARCHarXiv CS.CL·07/05/2026

Adapt to Thrive! Adaptive Power-Mean Policy Optimization for Improved LLM Reasoning

Cette recherche présente l'Optimisation Adaptative de Politique de Moyenne de Puissance (APMPO) pour améliorer les capacités de raisonnement des Grands Modèles Linguistiques (LLMs) via RLVR. APMPO combine un objectif de moyenne de puissance généralisée et un écrêtage adaptatif par rétroaction pour optimiser la dynamique d'apprentissage et les performances.

Policy optimization LLMs reinforcement learning machine learning

RESEARCHarXiv CS.CL·07/05/2026

Free Energy-Driven Reinforcement Learning with Adaptive Advantage Shaping for Unsupervised Reasoning in LLMs

FREIA est un nouvel algorithme d'apprentissage par renforcement qui améliore les LLM pour le raisonnement non supervisé, en s'attaquant au manque d'adaptabilité des méthodes existantes. Il utilise la Récompense Guidée par l'Énergie Libre (FER) pour équilibrer le consensus et l'exploration, et la Modélisation Adaptative de l'Avantage (AAS) pour ajuster les signaux d'apprentissage. FREIA surpasse les méthodes non supervisées de base dans diverses tâches de raisonnement, notamment en mathématiques.

LLMs reinforcement learning AI algorithms Reasoning