← heapsort-ai

Reasoning

57 items

RESEARCHarXiv CS.AI·22/04/2026

From Natural Language to Executable Narsese: A Neuro-Symbolic Benchmark and Pipeline for Reasoning with NARS

Cet article présente un cadre neuro-symbolique pour traduire les problèmes de raisonnement en langage naturel en Narsese exécutable, en utilisant la logique du premier ordre. Il introduit NARS-Reasoning-v0.1, un nouveau benchmark proposant des problèmes de raisonnement avec leurs représentations formelles et des étiquettes de vérité pour évaluer les capacités de raisonnement.

27
ARTICLEDEV.to AI·il y a 28j

DeepMind’s CEO Says AGI May Be ~4 Years Away. The Last Three Missing Pieces Are Not What Most People Think.

Demis Hassabis, PDG de Google DeepMind, prédit que l'AGI pourrait arriver vers 2030, identifiant trois pièces manquantes critiques dans l'IA actuelle : l'apprentissage continu, le raisonnement à long terme et la mémoire réelle. Il décrit les modèles actuels comme présentant une "intelligence inégale", avec de fortes réussites et des échecs fragiles.

27
RESEARCHDEV.to AI·il y a 17j

The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

Cette recherche explore le mécanisme d'entropie de l'apprentissage par renforcement, spécifiquement son application pour améliorer les capacités de raisonnement dans les modèles de langage. Elle étudie comment l'entropie peut être exploitée pour améliorer le processus d'apprentissage et la prise de décision pour un raisonnement plus robuste des modèles de langage.

27
ARTICLEDEV.to AI·il y a 19j

Apple Paper Argues LLMs Show 'Illusion of Thinking'

Un article d'Apple intitulé "The Illusion of Thinking" affirme que les grands modèles linguistiques (LLM) ne possèdent pas de véritable raisonnement, se basant uniquement sur la correspondance statistique de motifs. Dirigée par Mehrdad Farajtabar, l'étude critique les affirmations de fournisseurs comme GPT-4 et Claude, soulignant des échecs dans les tâches de raisonnement formel exigeant la compositionnalité.

27
RESEARCHarXiv CS.LG·15/04/2026

When Reasoning Models Hurt Behavioral Simulation: A Solver-Sampler Mismatch in Multi-Agent LLM Negotiation

Cet article analyse comment le renforcement du raisonnement dans les modèles de langage peut nuire à la fidélité des simulations comportementales, surtout lorsque l'objectif est d'échantillonner des comportements rationnellement limités plutôt que de résoudre un problème stratégique. Les auteurs mettent en évidence un "déséquilibre entre solutionneur et échantillonneur" où les LLM sur-optimisent, réduisant les comportements de compromis et entraînant une diversité sans fidélité dans les résultats.

27
RESEARCHarXiv CS.CL·15/04/2026

Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration

Cette recherche introduit CURE, un cadre novateur visant à améliorer la factualité de la génération de texte long par les LLM, en leur apprenant à raisonner sur l'incertitude au niveau de chaque affirmation. Il vise à dépasser la limite des modèles qui énoncent souvent des affirmations incorrectes avec confiance, en se concentrant sur une calibration granulaire de l'incertitude.

27
RESEARCHarXiv CS.LG·14/04/2026

Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model

Cette recherche examine l'Alignement Délibératif dans les LLM, une méthode conçue pour approfondir la sécurité en distillant les capacités de raisonnement de modèles plus performants. Elle révèle un écart d'alignement entre les modèles enseignant et étudiant, montrant que les modèles étudiants peuvent conserver des comportements dangereux du modèle de base malgré l'apprentissage de schémas de raisonnement avancés. L'article propose une méthode d'échantillonnage BoN pour relever ces défis.

27
RESEARCHarXiv CS.AI·09/05/2026

BALAR : A Bayesian Agentic Loop for Active Reasoning

Cet article présente BALAR (Bayesian Agentic Loop for Active Reasoning), un algorithme de boucle externe indépendant de la tâche qui permet une interaction structurée en plusieurs tours entre un agent LLM et un utilisateur. BALAR maintient une croyance structurée sur les états latents, sélectionne les questions de clarification en maximisant l'information mutuelle attendue et surpasse significativement les bases de référence sur divers benchmarks de raisonnement.

27
RESEARCHarXiv CS.LG·27/04/2026

Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning

Cette recherche étudie la nécessité des jetons de mémoire appris comme bloc-notes computationnel pour les Universal Transformers avec Temps de Calcul Adaptatif (ACT) sur un benchmark de raisonnement combinatoire. Elle conclut que les jetons de mémoire sont empiriquement nécessaires pour une performance non triviale, identifiant un seuil inférieur net pour le nombre optimal et un piège courant d'initialisation de routeur.

27
RESEARCHarXiv CS.LG·09/04/2026

RAGEN-2: Reasoning Collapse in Agentic RL

Este estudo introduz o conceito de 'colapso de template', uma falha em agentes LLM de múltiplas interações onde a resposta se torna agnóstica à entrada, mesmo com entropia estável. Propõe a Informação Mútua (MI) como uma métrica superior à entropia para diagnosticar a qualidade do raciocínio, correlacionando-se mais fortemente com o desempenho final.

27
RESEARCHarXiv CS.AI·30/04/2026

Grounding vs. Compositionality: On the Non-Complementarity of Reasoning in Neuro-Symbolic Systems

Ce travail remet en question l'hypothèse selon laquelle le raisonnement compositionnel émerge comme un sous-produit de l'ancrage symbolique dans l'IA neuro-symbolique. Il introduit l'architecture $i$LTN, montrant que les modèles entraînés uniquement sur un objectif d'ancrage échouent à généraliser, tandis qu'un entraînement conjoint sur l'ancrage perceptuel et le raisonnement multi-étapes est crucial.

27
RESEARCHarXiv CS.CL·27/04/2026

Incentivizing Neuro-symbolic Language-based Reasoning in VLMs via Reinforcement Learning

Ce travail explore le raisonnement en langage neuro-symbolique dans les VLMs, utilisant l'apprentissage par renforcement pour améliorer les capacités analytiques et l'efficacité. Il a obtenu une augmentation de 3,33% de la précision sur un ensemble de données vision-langage et une réduction de 75% des tokens de raisonnement.

27
RESEARCHarXiv CS.AI·il y a 24j

Enhanced and Efficient Reasoning in Large Learning Models

Cet article propose une méthode efficiente et basée sur des principes pour améliorer le raisonnement dans les Grands Modèles de Langage, s'attaquant au manque actuel de confiance dans le contenu produit. La méthode comprend une étape de pré-traitement avec un Integracode Relationnel Unaire, suivie d'un processus d'apprentissage automatique rationalisé.

27
RESEARCHarXiv CS.CL·24/04/2026

TRACES: Tagging Reasoning Steps for Adaptive Cost-Efficient Early-Stopping

Cet article présente TRACES, un framework léger conçu pour optimiser les Modèles de Raisonnement Linguistique (LRMs) en étiquetant les étapes de raisonnement en temps réel. Il permet un arrêt précoce adaptatif et rentable des inférences LRM, s'attaquant à leur inefficacité actuelle et à la sur-génération d'étapes de vérification.

27
RESEARCHarXiv CS.AI·il y a 17j

MindLoom: Composing Thought Modes for Frontier-Level Reasoning Data Synthesis

MindLoom est un cadre pour synthétiser des données de raisonnement de niveau avancé, s'attaquant à la diversité limitée et au contrôle instable de la difficulté des méthodes existantes. Il décompose les solutions de problèmes en "chaînes de modes de pensée" et entraîne un modèle de récupération pour guider le processus de raisonnement.

27
RESEARCHarXiv CS.CL·07/05/2026

Adapt to Thrive! Adaptive Power-Mean Policy Optimization for Improved LLM Reasoning

Cette recherche présente l'Optimisation Adaptative de Politique de Moyenne de Puissance (APMPO) pour améliorer les capacités de raisonnement des Grands Modèles Linguistiques (LLMs) via RLVR. APMPO combine un objectif de moyenne de puissance généralisée et un écrêtage adaptatif par rétroaction pour optimiser la dynamique d'apprentissage et les performances.

27
RESEARCHarXiv CS.CL·07/05/2026

Free Energy-Driven Reinforcement Learning with Adaptive Advantage Shaping for Unsupervised Reasoning in LLMs

FREIA est un nouvel algorithme d'apprentissage par renforcement qui améliore les LLM pour le raisonnement non supervisé, en s'attaquant au manque d'adaptabilité des méthodes existantes. Il utilise la Récompense Guidée par l'Énergie Libre (FER) pour équilibrer le consensus et l'exploration, et la Modélisation Adaptative de l'Avantage (AAS) pour ajuster les signaux d'apprentissage. FREIA surpasse les méthodes non supervisées de base dans diverses tâches de raisonnement, notamment en mathématiques.

27