← heapsort-ai

mathematical reasoning

14 items

RESEARCHarXiv CS.LG·il y a 1j

Skip a Layer or Loop It? Learning Program-of-Layers in LLMs

Cette recherche propose le concept de "program-of-layers (PoLar)" pour les LLM, permettant de sauter ou de boucler dynamiquement des couches pré-entraînées pendant l'inférence pour obtenir une précision équivalente ou supérieure avec des chemins d'exécution plus courts. Un réseau de prédiction léger apprend à générer ces programmes personnalisés, démontrant une performance améliorée sur les benchmarks de raisonnement mathématique.

60
RESEARCHarXiv CS.AI·il y a 1j

CrowdMath: A Dataset of Crowdsourced Mathematical Research Discussions

Cet article présente CrowdMath, un ensemble de données de 164 chaînes de progression annotées par des experts du programme CrowdMath du MIT PRIMES--Art of Problem Solving. Il vise à évaluer les grands modèles linguistiques sur la résolution collaborative de problèmes ouverts en mathématiques, se distinguant des benchmarks axés sur les réponses finales ou les preuves complètes.

40
RESEARCHarXiv CS.AI·il y a 5j

Characterizing initial human-AI proof formalization workflows

Cet article étudie comment les gens utilisent les outils d'IA dans la formalisation des preuves mathématiques, un défi historique pour la vérification des arguments mathématiques. À travers une analyse par méthodes mixtes, l'étude explore les préférences des utilisateurs et les défis de l'intégration de l'IA, avec un désir général d'assistance qui préserve le contrôle humain de haut niveau.

31
RESEARCHarXiv CS.CL·13/04/2026

Temperature-Dependent Performance of Prompting Strategies in Extended Reasoning Large Language Models

Cette étude évalue les performances des stratégies de prompting (chain-of-thought et zéro-shot) dans les LLM à raisonnement étendu comme Grok-4.1, en faisant varier la température d'échantillonnage sur 39 problèmes mathématiques complexes. Il a été constaté que le prompting zéro-shot atteint des performances optimales à des températures modérées, tandis que le chain-of-thought est plus efficace aux températures extrêmes, augmentant le bénéfice du raisonnement étendu.

30
RESEARCHarXiv CS.CL·16/04/2026

Mathematical Reasoning Enhanced LLM for Formula Derivation: A Case Study on Fiber NLI Modellin

Cette recherche présente une approche d'IA générative améliorée par le raisonnement mathématique pour la dérivation de formules de communication optique, en se concentrant sur la modélisation des interférences non linéaires de la fibre. L'étude a réussi à reconstruire des expressions connues et à dériver une nouvelle approximation à l'aide d'un LLM, prouvant la cohérence physique et la précision pratique.

29
RESEARCHDEV.to AI·il y a 22j

Solving Math Word Problems by Combining Language Models With Symbolic Solvers

Cette recherche explore une approche novatrice pour résoudre les problèmes mathématiques textuels en combinant la puissance des modèles de langage avec la précision des solveurs symboliques. La méthode vise à tirer parti de la compréhension du langage naturel et du raisonnement mathématique formel pour obtenir des solutions robustes.

28
RESEARCHarXiv CS.AI·il y a 21j

LinAlg-Bench: A Forensic Benchmark Revealing Structural Failure Modes in LLM Mathematical Reasoning

LinAlg-Bench est un nouveau benchmark diagnostique évaluant 10 modèles de langage étendus (LLM) de pointe sur le calcul d'algèbre linéaire structurée, révélant des modes de défaillance structurels. Il analyse la performance des LLM sur un gradient dimensionnel de matrices, classifiant les échecs en dix types d'erreurs primaires et identifiant un seuil comportemental aux matrices 4x4.

28
RESEARCHarXiv CS.CL·30/04/2026

MATH-PT: A Math Reasoning Benchmark for European and Brazilian Portuguese

Cet article présente MATH-PT, un nouvel ensemble de données de 1 729 problèmes mathématiques en portugais européen et brésilien, pour corriger le biais linguistique dans l'évaluation du raisonnement mathématique des LLM. Le benchmark révèle que les modèles de pointe obtiennent de bons résultats sur les questions à choix multiples, mais que leurs performances diminuent pour les questions ouvertes.

27
RESEARCHarXiv CS.AI·27/04/2026

Math Takes Two: A test for emergent mathematical reasoning in communication

Cet article propose Math Takes Two, un nouveau benchmark pour évaluer l'émergence du raisonnement mathématique chez les modèles linguistiques par la communication. Il teste la capacité de deux agents, sans connaissances mathématiques préalables, à développer un protocole symbolique partagé pour résoudre une tâche visuelle facilitant l'extrapolation numérique.

27
RESEARCHarXiv CS.AI·il y a 15j

RMA: an Agentic System for Research-Level Mathematical Problems

Research Math Agents (RMA) est un cadre agentique conçu pour le raisonnement automatisé sur des problèmes mathématiques complexes de niveau recherche, se distinguant des études antérieures sur les mathématiques de compétition ou la preuve de théorèmes formels. RMA utilise des modules spécialisés et des agents coordonnés qui génèrent, affinent et vérifient collaborativement des preuves candidates à travers un flux de travail multi-rôles et multi-tours, en utilisant une mémoire structurée partagée.

27
RESEARCHarXiv CS.AI·il y a 12j

LaneRoPE: Positional Encoding for Collaborative Parallel Reasoning and Generation

LaneRoPE est une nouvelle technique conçue pour améliorer la génération parallèle de grands modèles linguistiques (LLM) en permettant la coordination et la collaboration entre plusieurs séquences au moment du test. Ceci est réalisé grâce à un masque d'attention inter-séquence et une extension RoPE qui injecte des informations positionnelles, montrant des résultats prometteurs sur des tâches de raisonnement mathématique.

27
RESEARCHarXiv CS.CL·07/04/2026

Vocabulary Dropout for Curriculum Diversity in LLM Co-Evolution

A pesquisa aborda a queda de diversidade em sistemas de co-evolução de LLMs, onde um modelo gera problemas e outro os resolve, comprometendo o aprendizado de currículo autônomo. Para resolver isso, introduz o 'vocabulary dropout', uma máscara aleatória para manter a diversidade, resultando em melhorias no desempenho de solvers em raciocínio matemático.

27
RESEARCHarXiv CS.LG·06/04/2026

LLM Reasoning with Process Rewards for Outcome-Guided Steps

Este conteúdo apresenta o PROGRS, um framework para melhorar o raciocínio matemático em LLMs, combinando modelos de recompensa de processo (PRMs) com a priorização da correção do resultado final. Ele busca resolver o problema de PRMs que podem recompensar raciocínios intermediários fluentes, mas que levam a respostas incorretas, otimizando o aprendizado com feedback mais alinhado.

27