Reasoning

57 items

RESEARCHarXiv CS.CL·il y a 26j

TimelineReasoner: Advancing Timeline Summarization with Large Reasoning Models

TimelineReasoner est un nouveau cadre qui exploite les Grands Modèles de Raisonnement (LRMs) pour faire progresser la synthèse chronologique, allant au-delà de la génération passive des Grands Modèles de Langage (LLMs). Il utilise un processus actif en deux étapes, Cognition Globale et Exploration Détaillée, pour extraire et affiner activement les chronologies structurées à partir de contenus de presse en ligne non structurés.

timeline-summarization Natural Language Processing Reasoning large language models

RESEARCHarXiv CS.CL·il y a 20j

Diagnosing Multi-step Reasoning Failures in Black-box LLMs via Stepwise Confidence Attribution

Cet article présente le Stepwise Confidence Attribution (SCA), un cadre pour les LLM en boîte noire qui diagnostique les échecs de raisonnement multi-étapes en attribuant une confiance au niveau de l'étape. Le SCA applique le principe de l'Information Bottleneck, signalant les déviations par rapport aux structures de consensus comme des erreurs potentielles, et propose deux méthodes complémentaires : NIBS et GIBS.

LLMs information bottleneck Reasoning confidence estimation

RESEARCHarXiv CS.AI·il y a 15j

PathCal: State-Aware Reflection-Marker Calibration for Efficient Reasoning

Cet article de recherche présente 'PathCal', qui étudie les rôles fonctionnels distincts et le moment d'apparition des marqueurs de réflexion dans les trajectoires de Chain-of-Thought des Large Reasoning Language Models. Il révèle que des marqueurs comme 'wait' ou 'but' diffèrent significativement dans leur impact sur la précision et la longueur de la génération, remettant en question les approches précédentes.

Natural Language Processing Chain-of-Thought Reasoning large language models

RESEARCHarXiv CS.CL·il y a 8j

Can LLM Teams Play What? Where? When?

Cette recherche explore comment les interactions en équipe améliorent les performances des grands modèles de langage (LLM) sur des tâches de raisonnement complexes, notamment dans le jeu de quiz Quoi ? Où ? Quand ?. Elle démontre que les stratégies d'équipe entraînent des gains significatifs en précision, les meilleures équipes se rapprochant des performances humaines.

LLMs team strategies Benchmarking Reasoning

RESEARCHarXiv CS.AI·il y a 14j

How Much Thinking is Enough? Quantifying and Understanding Redundancy in LLM Reasoning

Cet article quantifie et explique la redondance dans le raisonnement des grands modèles linguistiques (LLM), en formalisant le concept et en le mesurant à grande échelle. La recherche révèle qu'entre 61% et 93% des étapes de réflexion des LLM sont inutiles, impactant la latence, le temps GPU et la consommation d'énergie.

efficiency Benchmarking Reasoning redundancy

RESEARCHarXiv CS.CL·il y a 6j

Adaptive Latent Agentic Reasoning

Cette recherche introduit le Raisonnement Agentique Latent Adaptatif (ALAR), un cadre à double mode conçu pour améliorer l'efficacité des agents LLM. ALAR utilise un raisonnement latent compact pour les tâches de routine et passe à un raisonnement explicite en chaîne de pensée lorsque une délibération plus approfondie est nécessaire, atteignant une précision de tâche comparable ou supérieure avec des gains d'efficacité substantiels.

LLMs machine learning efficiency Reasoning

RESEARCHarXiv CS.LG·il y a 13j

ARBITER: Reasoning Trajectory Basins and Majority Vote Failures in Test-Time Sampling

Lorsque les modèles de langage utilisent l'échantillonnage en temps de test et le vote majoritaire, les trajectoires de raisonnement se concentrent en

language models Model Evaluation Reasoning AI Research

RESEARCHHugging Face Blog·15/04/2026

Inside VAKRA: Reasoning, Tool Use, and Failure Modes of Agents

Ce contenu explore VAKRA, un système d'agents IA, en analysant ses processus de raisonnement, l'utilisation d'outils et les modes de défaillance. Il offre des aperçus sur les caractéristiques opérationnelles et les limites des agents IA avancés.

failure modes VAKRA Reasoning tool use

RESEARCHarXiv CS.AI·09/04/2026

SELFDOUBT: Uncertainty Quantification for Reasoning LLMs via the Hedge-to-Verify Ratio

Este artigo propõe SELFDOUBT, uma estrutura de passagem única para quantificar a incerteza em LLMs de raciocínio, especialmente para APIs proprietárias. Utiliza o Hedge-to-Verify Ratio (HVR) para identificar marcadores de incerteza e autoavaliação diretamente do rastro de raciocínio, superando métodos caros de amostragem.

LLMs Model Evaluation Uncertainty Quantification Reasoning

RESEARCHarXiv CS.AI·30/04/2026

Auto-Relational Reasoning

Des chercheurs proposent un nouveau cadre théorique pour le raisonnement relationnel automatisé, intégrant l'apprentissage automatique et le raisonnement rigide pour dépasser les limites des grands modèles actuels. Le système résultant démontre une haute performance sur des problèmes de QI, atteignant un taux de résolution de 98,03% sans connaissance préalable.

neural networks machine learning Reasoning problem-solving

RESEARCHarXiv CS.AI·23/04/2026

The Tool-Overuse Illusion: Why Does LLM Prefer External Tools over Internal Knowledge?

Cet article révèle le phénomène répandu de la "surutilisation d'outils" par les LLM, où les modèles emploient des outils externes inutilement. Il identifie une "illusion épistémique de la connaissance" et propose une stratégie basée sur l'optimisation des préférences directes qui réduit l'utilisation d'outils de 82,8 % tout en améliorant la précision.

LLMs Knowledge Representation Reasoning model behavior

RESEARCHarXiv CS.CL·06/05/2026

Evaluating Reasoning Models for Queries with Presuppositions

Cette recherche évalue comment les modèles de raisonnement gèrent les requêtes des utilisateurs contenant des présuppositions factuellement inexactes. Bien que ces modèles montrent une légère amélioration par rapport aux modèles non-raisonneurs, ils échouent toujours à contester une fraction significative des fausses hypothèses.

presuppositions AI models LLMs evaluation

RESEARCHarXiv CS.CL·15/04/2026

Filtered Reasoning Score: Evaluating Reasoning Quality on a Model's Most-Confident Traces

Cette recherche présente le "Filtered Reasoning Score", une nouvelle métrique conçue pour évaluer la qualité du raisonnement dans les modèles d'IA. Elle se concentre spécifiquement sur l'évaluation du raisonnement apparent dans les traces les plus sûres ou les sorties les plus confiantes d'un modèle.

AI metrics machine learning Reasoning AI evaluation

RESEARCHarXiv CS.LG·24/04/2026

The Path Not Taken: Duality in Reasoning about Program Execution

Le titre suggère une exploration de la dualité dans le raisonnement sur l'exécution des programmes, indiquant une analyse approfondie des approches alternatives. Il aborde probablement les méthodes formelles et logiques pour comprendre le fonctionnement des programmes.

formal methods Reasoning Program execution Duality

ARTICLEDEV.to AI·12/04/2026

We Hit 99.1% on the LOCOMO Benchmark. Here's How.

Une équipe a atteint 99,1% sur le benchmark LOCOMO, qui évalue le raisonnement multi-saut des agents IA avec mémoire. Ce succès est dû à la suppression d'une seule prémisse, et non à un nouveau modèle complexe.

Memory Systems Benchmarking Reasoning AI

NEWSTogether AI Blog·18/03/2026

Together AI expands fine-tuning service with tool calling, reasoning, and vision support

Together AI a étendu son service de fine-tuning avec un support natif pour l'appel d'outils, le raisonnement et les modèles de vision-langage. Les améliorations comprennent également la formation de modèles de plus de 100 milliards de paramètres, un débit jusqu'à 6 fois supérieur, et des estimations de coût et de délai.

Vision-Language Models tool-calling Reasoning Together AI

NEWSDEV.to AI·24/04/2026

DeepSeek V4 Rivoluziona l'IA con un Contesto da 1 Milione di Token e Ragionamento di Classe Mondiale

DeepSeek V4 révolutionne l'IA en introduisant une fenêtre de contexte d'un million de tokens et des capacités de raisonnement de classe mondiale. L'annonce détaille les points clés, avec une analyse plus approfondie disponible dans l'article complet.

DeepSeek AI models Context window Reasoning