mathematical reasoning

14 items

RESEARCHarXiv CS.LG·il y a 1j

Skip a Layer or Loop It? Learning Program-of-Layers in LLMs

Cette recherche propose le concept de "program-of-layers (PoLar)" pour les LLM, permettant de sauter ou de boucler dynamiquement des couches pré-entraînées pendant l'inférence pour obtenir une précision équivalente ou supérieure avec des chemins d'exécution plus courts. Un réseau de prédiction léger apprend à générer ces programmes personnalisés, démontrant une performance améliorée sur les benchmarks de raisonnement mathématique.

neural networks mathematical reasoning inference LLMs

RESEARCHarXiv CS.AI·il y a 1j

CrowdMath: A Dataset of Crowdsourced Mathematical Research Discussions

Cet article présente CrowdMath, un ensemble de données de 164 chaînes de progression annotées par des experts du programme CrowdMath du MIT PRIMES--Art of Problem Solving. Il vise à évaluer les grands modèles linguistiques sur la résolution collaborative de problèmes ouverts en mathématiques, se distinguant des benchmarks axés sur les réponses finales ou les preuves complètes.

mathematical reasoning LLMs datasets Benchmarks

RESEARCHarXiv CS.AI·il y a 5j

Characterizing initial human-AI proof formalization workflows

Cet article étudie comment les gens utilisent les outils d'IA dans la formalisation des preuves mathématiques, un défi historique pour la vérification des arguments mathématiques. À travers une analyse par méthodes mixtes, l'étude explore les préférences des utilisateurs et les défis de l'intégration de l'IA, avec un désir général d'assistance qui préserve le contrôle humain de haut niveau.

mathematical reasoning AI Systems human-AI interaction proof formalization

RESEARCHarXiv CS.CL·13/04/2026

Temperature-Dependent Performance of Prompting Strategies in Extended Reasoning Large Language Models

Cette étude évalue les performances des stratégies de prompting (chain-of-thought et zéro-shot) dans les LLM à raisonnement étendu comme Grok-4.1, en faisant varier la température d'échantillonnage sur 39 problèmes mathématiques complexes. Il a été constaté que le prompting zéro-shot atteint des performances optimales à des températures modérées, tandis que le chain-of-thought est plus efficace aux températures extrêmes, augmentant le bénéfice du raisonnement étendu.

mathematical reasoning LLMs Prompting Temperature

RESEARCHarXiv CS.CL·16/04/2026

Mathematical Reasoning Enhanced LLM for Formula Derivation: A Case Study on Fiber NLI Modellin

Cette recherche présente une approche d'IA générative améliorée par le raisonnement mathématique pour la dérivation de formules de communication optique, en se concentrant sur la modélisation des interférences non linéaires de la fibre. L'étude a réussi à reconstruire des expressions connues et à dériver une nouvelle approximation à l'aide d'un LLM, prouvant la cohérence physique et la précision pratique.

mathematical reasoning LLMs Scientific Discovery Generative AI

RESEARCHDEV.to AI·il y a 22j

Solving Math Word Problems by Combining Language Models With Symbolic Solvers

Cette recherche explore une approche novatrice pour résoudre les problèmes mathématiques textuels en combinant la puissance des modèles de langage avec la précision des solveurs symboliques. La méthode vise à tirer parti de la compréhension du langage naturel et du raisonnement mathématique formel pour obtenir des solutions robustes.

mathematical reasoning Symbolic AI natural language processing problem-solving

RESEARCHarXiv CS.AI·il y a 21j

LinAlg-Bench: A Forensic Benchmark Revealing Structural Failure Modes in LLM Mathematical Reasoning

LinAlg-Bench est un nouveau benchmark diagnostique évaluant 10 modèles de langage étendus (LLM) de pointe sur le calcul d'algèbre linéaire structurée, révélant des modes de défaillance structurels. Il analyse la performance des LLM sur un gradient dimensionnel de matrices, classifiant les échecs en dix types d'erreurs primaires et identifiant un seuil comportemental aux matrices 4x4.

mathematical reasoning Benchmarking linear algebra AI evaluation

RESEARCHarXiv CS.CL·30/04/2026

MATH-PT: A Math Reasoning Benchmark for European and Brazilian Portuguese

Cet article présente MATH-PT, un nouvel ensemble de données de 1 729 problèmes mathématiques en portugais européen et brésilien, pour corriger le biais linguistique dans l'évaluation du raisonnement mathématique des LLM. Le benchmark révèle que les modèles de pointe obtiennent de bons résultats sur les questions à choix multiples, mais que leurs performances diminuent pour les questions ouvertes.

Dataset mathematical reasoning LLMs Benchmarking

RESEARCHarXiv CS.AI·27/04/2026

Math Takes Two: A test for emergent mathematical reasoning in communication

Cet article propose Math Takes Two, un nouveau benchmark pour évaluer l'émergence du raisonnement mathématique chez les modèles linguistiques par la communication. Il teste la capacité de deux agents, sans connaissances mathématiques préalables, à développer un protocole symbolique partagé pour résoudre une tâche visuelle facilitant l'extrapolation numérique.

language models mathematical reasoning AI communication Benchmarks

RESEARCHarXiv CS.AI·il y a 15j

RMA: an Agentic System for Research-Level Mathematical Problems

Research Math Agents (RMA) est un cadre agentique conçu pour le raisonnement automatisé sur des problèmes mathématiques complexes de niveau recherche, se distinguant des études antérieures sur les mathématiques de compétition ou la preuve de théorèmes formels. RMA utilise des modules spécialisés et des agents coordonnés qui génèrent, affinent et vérifient collaborativement des preuves candidates à travers un flux de travail multi-rôles et multi-tours, en utilisant une mémoire structurée partagée.

mathematical reasoning proof verification Automated reasoning Research Methods

RESEARCHarXiv CS.AI·il y a 12j

LaneRoPE: Positional Encoding for Collaborative Parallel Reasoning and Generation

LaneRoPE est une nouvelle technique conçue pour améliorer la génération parallèle de grands modèles linguistiques (LLM) en permettant la coordination et la collaboration entre plusieurs séquences au moment du test. Ceci est réalisé grâce à un masque d'attention inter-séquence et une extension RoPE qui injecte des informations positionnelles, montrant des résultats prometteurs sur des tâches de raisonnement mathématique.

mathematical reasoning attention mechanisms Positional Encoding Parallel Processing

RESEARCHarXiv CS.CL·07/04/2026

Vocabulary Dropout for Curriculum Diversity in LLM Co-Evolution

A pesquisa aborda a queda de diversidade em sistemas de co-evolução de LLMs, onde um modelo gera problemas e outro os resolve, comprometendo o aprendizado de currículo autônomo. Para resolver isso, introduz o 'vocabulary dropout', uma máscara aleatória para manter a diversidade, resultando em melhorias no desempenho de solvers em raciocínio matemático.

mathematical reasoning diversity Co-evolution self-play

RESEARCHarXiv CS.LG·06/04/2026

LLM Reasoning with Process Rewards for Outcome-Guided Steps

Este conteúdo apresenta o PROGRS, um framework para melhorar o raciocínio matemático em LLMs, combinando modelos de recompensa de processo (PRMs) com a priorização da correção do resultado final. Ele busca resolver o problema de PRMs que podem recompensar raciocínios intermediários fluentes, mas que levam a respostas incorretas, otimizando o aprendizado com feedback mais alinhado.

mathematical reasoning Process Rewards reinforcement learning AI

RESEARCHQwen Blog·13/01/2025

Towards Effective Process Supervision in Mathematical Reasoning

Modelos de Linguagem Grandes (LLMs) têm feito avanços notáveis no raciocínio matemático, mas podem cometer erros de cálculo ou lógica. Mesmo quando as respostas finais estão corretas, os LLMs podem criar passos de raciocínio plausíveis, mas falhos, comprometendo a confiabilidade de seus processos.

mathematical reasoning LLMs Process Supervision AI limitations