mathematical reasoning

14 items

RESEARCHarXiv CS.LG·hace 1d

Skip a Layer or Loop It? Learning Program-of-Layers in LLMs

Esta investigación propone "program-of-layers (PoLar)" para LLMs, que permite omitir o repetir dinámicamente capas preentrenadas durante la inferencia para lograr una precisión igual o mejor con rutas de ejecución más cortas. Se propone una red de predicción ligera para generar estos programas personalizados, mostrando un rendimiento mejorado en pruebas de razonamiento matemático.

neural networks mathematical reasoning inference LLMs

RESEARCHarXiv CS.AI·hace 1d

CrowdMath: A Dataset of Crowdsourced Mathematical Research Discussions

Este artículo presenta CrowdMath, un conjunto de datos de 164 cadenas de progreso anotadas por expertos del programa CrowdMath del MIT PRIMES--Art of Problem Solving. Su objetivo es evaluar los grandes modelos de lenguaje en la resolución colaborativa de problemas matemáticos abiertos, difiriendo de los puntos de referencia centrados en respuestas finales o pruebas completas.

mathematical reasoning LLMs datasets Benchmarks

RESEARCHarXiv CS.AI·hace 5d

Characterizing initial human-AI proof formalization workflows

Este artículo investiga cómo las personas utilizan herramientas de IA en la formalización de pruebas matemáticas, un desafío histórico en la verificación de argumentos matemáticos. Mediante un análisis de métodos mixtos, el estudio explora las preferencias y los desafíos de los usuarios en la integración de la IA, con un deseo general de asistencia que conserve el control humano de alto nivel.

mathematical reasoning AI Systems human-AI interaction proof formalization

RESEARCHarXiv CS.CL·13/4/2026

Temperature-Dependent Performance of Prompting Strategies in Extended Reasoning Large Language Models

Este estudio evalúa el rendimiento de estrategias de prompting (chain-of-thought y zero-shot) en LLMs de razonamiento extendido como Grok-4.1, variando la temperatura de muestreo en 39 problemas matemáticos desafiantes. Se encontró que el prompting de disparo cero alcanza su máximo rendimiento a temperaturas moderadas, mientras que el chain-of-thought funciona mejor en los extremos de temperatura, aumentando el beneficio del razonamiento extendido.

mathematical reasoning LLMs Prompting Temperature

RESEARCHarXiv CS.CL·16/4/2026

Mathematical Reasoning Enhanced LLM for Formula Derivation: A Case Study on Fiber NLI Modellin

Esta investigación presenta un enfoque de IA generativa mejorado con razonamiento matemático para la derivación de fórmulas de comunicación óptica, centrándose en el modelado de interferencia no lineal de fibra. El estudio reconstruyó expresiones conocidas y derivó una nueva aproximación utilizando un LLM, demostrando consistencia física y precisión práctica.

mathematical reasoning LLMs Scientific Discovery Generative AI

RESEARCHDEV.to AI·hace 22d

Solving Math Word Problems by Combining Language Models With Symbolic Solvers

Esta investigación explora un enfoque novedoso para resolver problemas matemáticos de texto combinando el poder de los modelos de lenguaje con la precisión de los solucionadores simbólicos. El método busca aprovechar tanto la comprensión del lenguaje natural como el razonamiento matemático formal para lograr soluciones robustas.

mathematical reasoning Symbolic AI natural language processing problem-solving

RESEARCHarXiv CS.AI·hace 21d

LinAlg-Bench: A Forensic Benchmark Revealing Structural Failure Modes in LLM Mathematical Reasoning

LinAlg-Bench es un nuevo benchmark diagnóstico que evalúa 10 modelos de lenguaje grandes (LLMs) de frontera en computación estructurada de álgebra lineal, revelando modos de falla estructurales. Este evalúa el rendimiento de los LLMs en un gradiente dimensional de matrices, clasificando los fallos en diez tipos de errores primarios y detectando un umbral de comportamiento en matrices de 4x4.

mathematical reasoning Benchmarking linear algebra AI evaluation

RESEARCHarXiv CS.CL·30/4/2026

MATH-PT: A Math Reasoning Benchmark for European and Brazilian Portuguese

Este artículo introduce MATH-PT, un nuevo conjunto de datos de 1.729 problemas matemáticos en portugués europeo y brasileño, para abordar el sesgo lingüístico en la evaluación del razonamiento matemático de LLMs. La evaluación de modelos de vanguardia muestra un buen rendimiento en preguntas de opción múltiple, pero su rendimiento disminuye en preguntas abiertas.

Dataset mathematical reasoning LLMs Benchmarking

RESEARCHarXiv CS.AI·27/4/2026

Math Takes Two: A test for emergent mathematical reasoning in communication

Este artículo propone Math Takes Two, un nuevo benchmark diseñado para evaluar el razonamiento matemático emergente en modelos de lenguaje a través de la comunicación. Prueba si dos agentes, sin conocimiento matemático previo, pueden desarrollar un protocolo simbólico compartido para resolver una tarea visualmente fundamentada que facilita la extrapolación numérica.

language models mathematical reasoning AI communication Benchmarks

RESEARCHarXiv CS.AI·hace 15d

RMA: an Agentic System for Research-Level Mathematical Problems

Research Math Agents (RMA) es un marco agéntico diseñado para el razonamiento automatizado en problemas matemáticos de nivel de investigación complejos, diferenciándose de trabajos previos en matemáticas de competición o prueba formal de teoremas. RMA emplea módulos especializados y agentes coordinados que generan, refinan y verifican colaborativamente pruebas candidatas a través de un flujo de trabajo de múltiples roles y rondas, utilizando una memoria estructurada compartida.

mathematical reasoning proof verification Automated reasoning Research Methods

RESEARCHarXiv CS.AI·hace 12d

LaneRoPE: Positional Encoding for Collaborative Parallel Reasoning and Generation

LaneRoPE es una técnica novedosa diseñada para mejorar la generación paralela de Modelos de Lenguaje Grandes (LLMs) al permitir la coordinación y colaboración entre múltiples secuencias en tiempo de prueba. Esto se logra mediante una máscara de atención inter-secuencia y una extensión RoPE que inyecta información posicional, mostrando resultados prometedores en tareas de razonamiento matemático.

mathematical reasoning attention mechanisms Positional Encoding Parallel Processing

RESEARCHarXiv CS.CL·7/4/2026

Vocabulary Dropout for Curriculum Diversity in LLM Co-Evolution

A pesquisa aborda a queda de diversidade em sistemas de co-evolução de LLMs, onde um modelo gera problemas e outro os resolve, comprometendo o aprendizado de currículo autônomo. Para resolver isso, introduz o 'vocabulary dropout', uma máscara aleatória para manter a diversidade, resultando em melhorias no desempenho de solvers em raciocínio matemático.

mathematical reasoning diversity Co-evolution self-play

RESEARCHarXiv CS.LG·6/4/2026

LLM Reasoning with Process Rewards for Outcome-Guided Steps

Este conteúdo apresenta o PROGRS, um framework para melhorar o raciocínio matemático em LLMs, combinando modelos de recompensa de processo (PRMs) com a priorização da correção do resultado final. Ele busca resolver o problema de PRMs que podem recompensar raciocínios intermediários fluentes, mas que levam a respostas incorretas, otimizando o aprendizado com feedback mais alinhado.

mathematical reasoning Process Rewards reinforcement learning AI

RESEARCHQwen Blog·13/1/2025

Towards Effective Process Supervision in Mathematical Reasoning

Modelos de Linguagem Grandes (LLMs) têm feito avanços notáveis no raciocínio matemático, mas podem cometer erros de cálculo ou lógica. Mesmo quando as respostas finais estão corretas, os LLMs podem criar passos de raciocínio plausíveis, mas falhos, comprometendo a confiabilidade de seus processos.

mathematical reasoning LLMs Process Supervision AI limitations