Reasoning

57 items

RESEARCHarXiv CS.AI·il y a 20h

Why Limit the Residual Stream to Layers and Not Tokens? Persistent Memory for Continuous Latent Reasoning

Les grands modèles linguistiques (LLM) rencontrent une limitation appelée le 'goulot d'étranglement conceptuel', où ils perdent des faits critiques lors de raisonnements latents profonds. Cet article propose l'AGCLR pour y remédier, en augmentant CoCoNuT avec un flux de concepts à porte pour une mémoire persistante.

machine learning Latent Reasoning Reasoning AI Research

NEWS↑ trendingReddit r/LocalLLaMA·08/04/2026

Meta new reasoning model Muse Spark

O conteúdo anuncia o lançamento do Muse Spark, um novo modelo de raciocínio de IA desenvolvido pela Meta. Este modelo promete avançar as capacidades de raciocínio em inteligência artificial.

Muse Spark Reasoning AI model Meta

RESEARCHarXiv CS.CL·il y a 1j

How Language Models Fail: Token-Level Signatures of Committed and Persistent Reasoning Failures

Les échecs dans le raisonnement des modèles de langage émergent à travers des processus distincts qui laissent des signatures identifiables au niveau des tokens. Ces échecs sont caractérisés comme "échec engagé" ou "incertitude persistante", et la compréhension de ces signatures aide à distinguer les réalisations échouées des réussies dans diverses configurations.

language models research Reasoning AI failures

RESEARCHDEV.to AI·il y a 14j

Meta-Stanford Survey: Code as Agent Harness Improves AI Reasoning

Une étude de Meta, Stanford et Illinois suggère que les agents IA fonctionnent mieux lorsque le code est leur principale couche de travail, un concept nommé "agent harness". Cette approche déplace l'attention de l'IA de la simple prédiction de texte vers le raisonnement exécutable, améliorant sa capacité à gérer des tâches complexes et à minimiser les erreurs.

agent harness LLMs code Reasoning

RESEARCHarXiv CS.LG·13/04/2026

Robust Reasoning Benchmark

Cette étude propose un nouveau benchmark pour évaluer la robustesse du raisonnement des LLM face aux perturbations textuelles, en l'appliquant à l'ensemble de données AIME 2024. Les résultats indiquent que les modèles de pointe sont résilients, tandis que les modèles open-source subissent des baisses de précision catastrophiques, révélant des fragilités structurelles.

robustness LLMs Model Evaluation Reasoning

RESEARCHarXiv CS.CL·il y a 6j

Adaptive Latent Agentic Reasoning

Cette recherche introduit le Raisonnement Agentique Latent Adaptatif (ALAR), un cadre à double mode conçu pour améliorer l'efficacité des agents LLM. ALAR utilise un raisonnement latent compact pour les tâches de routine et passe à un raisonnement explicite en chaîne de pensée lorsque une délibération plus approfondie est nécessaire, atteignant une précision de tâche comparable ou supérieure avec des gains d'efficacité substantiels.

LLMs machine learning efficiency Reasoning

RESEARCHarXiv CS.CL·20/04/2026

Think Multilingual, Not Harder: A Data-Efficient Framework for Teaching Reasoning Models to Code-Switch

Cette recherche présente un cadre de réglage fin (fine-tuning) économe en données pour enseigner aux modèles de raisonnement à effectuer un "code-switching" efficace pour les tâches de raisonnement. Elle identifie les comportements de "code-switching" bénéfiques, s'éloignant de la vision de l'erreur, grâce à une analyse systématique de traces de raisonnement diverses.

Multilingual AI Code-Switching Reasoning large language models

RESEARCHDEV.to AI·22/04/2026

What VAKRA Reveals About Why Agents Actually Fail

VAKRA, un nouveau benchmark d'IBM Research, révèle que les agents IA échouent de manière prévisible et structurelle en cartographiant les points de rupture entre le raisonnement, la sélection d'outils et l'exécution. Il décompose l'échec des agents en six catégories spécifiques, allant au-delà des évaluations binaires traditionnelles pour découvrir les faiblesses courantes.

failure analysis Model Evaluation Benchmarking Reasoning

RESEARCHarXiv CS.CL·24/04/2026

AITP: Traffic Accident Responsibility Allocation via Multimodal Large Language Models

AITP est introduit comme un grand modèle linguistique multimodal conçu pour l'attribution de la responsabilité des accidents de la circulation, améliorant le raisonnement via Multimodal Chain-of-Thought et intégrant les connaissances juridiques par RAG. La recherche présente également DecaTARA, un benchmark complet de style décathlon avec 67 941 vidéos annotées et 195 821 paires question-réponse.

multimodal AI Reasoning Benchmarks large language models

RESEARCHDEV.to AI·20/04/2026

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

O1-Pruner présente une méthode de réglage fin harmonisant la longueur pour l'élagage du raisonnement de type O1. Cette technique vise à optimiser les modèles pour leurs capacités de raisonnement.

Pruning Reasoning Fine-tuning model optimization

RESEARCHarXiv CS.AI·il y a 5j

Consensus is Strategically Insufficient: Reasoning-Trace Disagreement as a Knowledge-Representation Signal

Cet article soutient que la réduction des désaccords dans les systèmes multi-agents est insuffisante pour les tâches à forte valeur, proposant une couche de représentation des connaissances. Cette couche abstrait les traces de raisonnement et les décisions des agents en états de désaccord symboliques, distinguant quatre types, avec application dans la modération de contenu.

Disagreement Knowledge Representation Reasoning content moderation

RESEARCHarXiv CS.CL·09/04/2026

The Stepwise Informativeness Assumption: Why are Entropy Dynamics and Reasoning Correlated in LLMs?

Este artigo investiga a correlação entre a dinâmica interna de entropia e o raciocínio correto em Large Language Models (LLMs), um enigma ainda sem solução. Propõe a Hipótese de Informatividade Gradual (SIA), que afirma que os modelos raciocinam corretamente ao acumular informações relevantes sobre a resposta por meio de prefixos informativos, um processo reforçado por métodos de treinamento padrão.

information theory LLMs machine learning Reasoning

RESEARCHarXiv CS.AI·04/05/2026

Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents

Cette recherche remet en question l'idée que le raisonnement assisté par des outils améliore toujours les performances des LLM, révélant une "taxe d'utilisation d'outils" due au protocole d'appel qui peut dégrader la performance. Un cadre d'intervention factorisé est proposé pour analyser cet écart, et G-STEP est introduit pour atténuer les erreurs induites par le protocole.

LLM Agents Reasoning AI performance tool use

RESEARCHarXiv CS.CL·il y a 19j

Long-Context Reasoning Through Proxy-Based Chain-of-Thought Tuning

Malgré la prise en charge d'entrées étendues, les grands modèles linguistiques ont des performances médiocres sur les tâches de raisonnement à contexte long. ProxyCoT est un nouveau cadre d'entraînement qui transfère les capacités de raisonnement des contextes proxy courts aux contextes longs complets, surpassant les références solides.

machine learning natural language processing Reasoning large language models

RESEARCHarXiv CS.AI·il y a 6j

Visual Graph Scaffolds for Structural Reasoning in Large Language Models

Cette recherche explore l'utilisation d'échafaudages graphiques visuels pour organiser le raisonnement dans les grands modèles de langage (LLM), inspirée des cartes mentales humaines. Des expériences sur des tâches de questions-réponses multi-sauts révèlent que le guidage visuel par graphes améliore considérablement l'efficacité du raisonnement et la qualité des réponses par rapport aux représentations textuelles aplaties.

LLMs Graph Structures Reasoning artificial intelligence

RESEARCHarXiv CS.CL·10/04/2026

Reasoning-Based Refinement of Unsupervised Text Clusters with LLMs

Este artigo propõe uma estrutura de refinamento baseada em raciocínio que utiliza LLMs como juízes semânticos para validar e reestruturar os resultados de algoritmos de agrupamento de texto não supervisionados. A estrutura inclui verificação de coerência, adjudicação de redundância e fundamentação de rótulos, visando melhorar a qualidade dos clusters sem dados rotulados.

LLMs Text Clustering Reasoning semantic analysis

RESEARCHarXiv CS.LG·il y a 15j

When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions

Cette recherche propose que le raisonnement des LLM est un état de décodage dynamique, et non une propriété statique, observable à travers la dynamique d'entropie aux premiers stades de la génération. Les tâches bénéficiant du Chain-of-Thought présentent une réduction d'entropie constante, interprétée comme une transition de phase vers un régime de raisonnement structuré.

AI models LLMs Chain-of-Thought Reasoning

RESEARCHarXiv CS.AI·06/04/2026

Compositional Neuro-Symbolic Reasoning

O título refere-se à pesquisa sobre raciocínio neuro-simbólico composicional, uma área avançada da inteligência artificial. Este campo explora a integração de redes neurais com sistemas simbólicos para permitir raciocínio mais robusto e estruturado.

Compositionality Reasoning Neuro-symbolic AI

RESEARCHarXiv CS.LG·15/04/2026

How Transformers Learn to Plan via Multi-Token Prediction

Cet article examine comment la prédiction multi-jetons (MTP) permet aux Transformers d'apprendre à planifier, surpassant la prédiction du jeton suivant (NTP). Empiriquement, la MTP améliore les performances sur les tâches de raisonnement, et théoriquement, elle induit un processus de raisonnement inverse en deux étapes via le découplage des gradients.

Next-token prediction Planning Multi-Token Prediction Reasoning

ARTICLEGoogle for Developers (YouTube)·il y a 19j

Building agents with real-world reasoning

Ce contenu explore les méthodologies et les défis impliqués dans le développement d'agents d'IA capables d'un raisonnement robuste dans le monde réel. Il examine les techniques nécessaires pour permettre aux agents d'interagir efficacement avec des environnements complexes et dynamiques.

agent development Reasoning real-world AI AI agents

Building agents with real-world reasoning