← heapsort-ai

Reasoning

57 items

RESEARCHarXiv CS.AI·il y a 20h

Why Limit the Residual Stream to Layers and Not Tokens? Persistent Memory for Continuous Latent Reasoning

Les grands modèles linguistiques (LLM) rencontrent une limitation appelée le 'goulot d'étranglement conceptuel', où ils perdent des faits critiques lors de raisonnements latents profonds. Cet article propose l'AGCLR pour y remédier, en augmentant CoCoNuT avec un flux de concepts à porte pour une mémoire persistante.

57
RESEARCHarXiv CS.CL·il y a 1j

How Language Models Fail: Token-Level Signatures of Committed and Persistent Reasoning Failures

Les échecs dans le raisonnement des modèles de langage émergent à travers des processus distincts qui laissent des signatures identifiables au niveau des tokens. Ces échecs sont caractérisés comme "échec engagé" ou "incertitude persistante", et la compréhension de ces signatures aide à distinguer les réalisations échouées des réussies dans diverses configurations.

40
RESEARCHDEV.to AI·il y a 14j

Meta-Stanford Survey: Code as Agent Harness Improves AI Reasoning

Une étude de Meta, Stanford et Illinois suggère que les agents IA fonctionnent mieux lorsque le code est leur principale couche de travail, un concept nommé "agent harness". Cette approche déplace l'attention de l'IA de la simple prédiction de texte vers le raisonnement exécutable, améliorant sa capacité à gérer des tâches complexes et à minimiser les erreurs.

31
RESEARCHarXiv CS.LG·13/04/2026

Robust Reasoning Benchmark

Cette étude propose un nouveau benchmark pour évaluer la robustesse du raisonnement des LLM face aux perturbations textuelles, en l'appliquant à l'ensemble de données AIME 2024. Les résultats indiquent que les modèles de pointe sont résilients, tandis que les modèles open-source subissent des baisses de précision catastrophiques, révélant des fragilités structurelles.

30
RESEARCHarXiv CS.CL·il y a 6j

Adaptive Latent Agentic Reasoning

Cette recherche introduit le Raisonnement Agentique Latent Adaptatif (ALAR), un cadre à double mode conçu pour améliorer l'efficacité des agents LLM. ALAR utilise un raisonnement latent compact pour les tâches de routine et passe à un raisonnement explicite en chaîne de pensée lorsque une délibération plus approfondie est nécessaire, atteignant une précision de tâche comparable ou supérieure avec des gains d'efficacité substantiels.

29
RESEARCHarXiv CS.CL·20/04/2026

Think Multilingual, Not Harder: A Data-Efficient Framework for Teaching Reasoning Models to Code-Switch

Cette recherche présente un cadre de réglage fin (fine-tuning) économe en données pour enseigner aux modèles de raisonnement à effectuer un "code-switching" efficace pour les tâches de raisonnement. Elle identifie les comportements de "code-switching" bénéfiques, s'éloignant de la vision de l'erreur, grâce à une analyse systématique de traces de raisonnement diverses.

29
RESEARCHDEV.to AI·22/04/2026

What VAKRA Reveals About Why Agents Actually Fail

VAKRA, un nouveau benchmark d'IBM Research, révèle que les agents IA échouent de manière prévisible et structurelle en cartographiant les points de rupture entre le raisonnement, la sélection d'outils et l'exécution. Il décompose l'échec des agents en six catégories spécifiques, allant au-delà des évaluations binaires traditionnelles pour découvrir les faiblesses courantes.

29
RESEARCHarXiv CS.CL·24/04/2026

AITP: Traffic Accident Responsibility Allocation via Multimodal Large Language Models

AITP est introduit comme un grand modèle linguistique multimodal conçu pour l'attribution de la responsabilité des accidents de la circulation, améliorant le raisonnement via Multimodal Chain-of-Thought et intégrant les connaissances juridiques par RAG. La recherche présente également DecaTARA, un benchmark complet de style décathlon avec 67 941 vidéos annotées et 195 821 paires question-réponse.

29
RESEARCHarXiv CS.AI·il y a 5j

Consensus is Strategically Insufficient: Reasoning-Trace Disagreement as a Knowledge-Representation Signal

Cet article soutient que la réduction des désaccords dans les systèmes multi-agents est insuffisante pour les tâches à forte valeur, proposant une couche de représentation des connaissances. Cette couche abstrait les traces de raisonnement et les décisions des agents en états de désaccord symboliques, distinguant quatre types, avec application dans la modération de contenu.

28
RESEARCHarXiv CS.CL·09/04/2026

The Stepwise Informativeness Assumption: Why are Entropy Dynamics and Reasoning Correlated in LLMs?

Este artigo investiga a correlação entre a dinâmica interna de entropia e o raciocínio correto em Large Language Models (LLMs), um enigma ainda sem solução. Propõe a Hipótese de Informatividade Gradual (SIA), que afirma que os modelos raciocinam corretamente ao acumular informações relevantes sobre a resposta por meio de prefixos informativos, um processo reforçado por métodos de treinamento padrão.

28
RESEARCHarXiv CS.AI·04/05/2026

Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents

Cette recherche remet en question l'idée que le raisonnement assisté par des outils améliore toujours les performances des LLM, révélant une "taxe d'utilisation d'outils" due au protocole d'appel qui peut dégrader la performance. Un cadre d'intervention factorisé est proposé pour analyser cet écart, et G-STEP est introduit pour atténuer les erreurs induites par le protocole.

28
RESEARCHarXiv CS.CL·il y a 19j

Long-Context Reasoning Through Proxy-Based Chain-of-Thought Tuning

Malgré la prise en charge d'entrées étendues, les grands modèles linguistiques ont des performances médiocres sur les tâches de raisonnement à contexte long. ProxyCoT est un nouveau cadre d'entraînement qui transfère les capacités de raisonnement des contextes proxy courts aux contextes longs complets, surpassant les références solides.

28
RESEARCHarXiv CS.AI·il y a 6j

Visual Graph Scaffolds for Structural Reasoning in Large Language Models

Cette recherche explore l'utilisation d'échafaudages graphiques visuels pour organiser le raisonnement dans les grands modèles de langage (LLM), inspirée des cartes mentales humaines. Des expériences sur des tâches de questions-réponses multi-sauts révèlent que le guidage visuel par graphes améliore considérablement l'efficacité du raisonnement et la qualité des réponses par rapport aux représentations textuelles aplaties.

28
RESEARCHarXiv CS.CL·10/04/2026

Reasoning-Based Refinement of Unsupervised Text Clusters with LLMs

Este artigo propõe uma estrutura de refinamento baseada em raciocínio que utiliza LLMs como juízes semânticos para validar e reestruturar os resultados de algoritmos de agrupamento de texto não supervisionados. A estrutura inclui verificação de coerência, adjudicação de redundância e fundamentação de rótulos, visando melhorar a qualidade dos clusters sem dados rotulados.

28
RESEARCHarXiv CS.LG·il y a 15j

When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions

Cette recherche propose que le raisonnement des LLM est un état de décodage dynamique, et non une propriété statique, observable à travers la dynamique d'entropie aux premiers stades de la génération. Les tâches bénéficiant du Chain-of-Thought présentent une réduction d'entropie constante, interprétée comme une transition de phase vers un régime de raisonnement structuré.

28
RESEARCHarXiv CS.LG·15/04/2026

How Transformers Learn to Plan via Multi-Token Prediction

Cet article examine comment la prédiction multi-jetons (MTP) permet aux Transformers d'apprendre à planifier, surpassant la prédiction du jeton suivant (NTP). Empiriquement, la MTP améliore les performances sur les tâches de raisonnement, et théoriquement, elle induit un processus de raisonnement inverse en deux étapes via le découplage des gradients.

27