← heapsort-ai

mathematical reasoning

14 items

RESEARCHarXiv CS.LG·hace 1d

Skip a Layer or Loop It? Learning Program-of-Layers in LLMs

Esta investigación propone "program-of-layers (PoLar)" para LLMs, que permite omitir o repetir dinámicamente capas preentrenadas durante la inferencia para lograr una precisión igual o mejor con rutas de ejecución más cortas. Se propone una red de predicción ligera para generar estos programas personalizados, mostrando un rendimiento mejorado en pruebas de razonamiento matemático.

60
RESEARCHarXiv CS.AI·hace 1d

CrowdMath: A Dataset of Crowdsourced Mathematical Research Discussions

Este artículo presenta CrowdMath, un conjunto de datos de 164 cadenas de progreso anotadas por expertos del programa CrowdMath del MIT PRIMES--Art of Problem Solving. Su objetivo es evaluar los grandes modelos de lenguaje en la resolución colaborativa de problemas matemáticos abiertos, difiriendo de los puntos de referencia centrados en respuestas finales o pruebas completas.

40
RESEARCHarXiv CS.AI·hace 5d

Characterizing initial human-AI proof formalization workflows

Este artículo investiga cómo las personas utilizan herramientas de IA en la formalización de pruebas matemáticas, un desafío histórico en la verificación de argumentos matemáticos. Mediante un análisis de métodos mixtos, el estudio explora las preferencias y los desafíos de los usuarios en la integración de la IA, con un deseo general de asistencia que conserve el control humano de alto nivel.

31
RESEARCHarXiv CS.CL·13/4/2026

Temperature-Dependent Performance of Prompting Strategies in Extended Reasoning Large Language Models

Este estudio evalúa el rendimiento de estrategias de prompting (chain-of-thought y zero-shot) en LLMs de razonamiento extendido como Grok-4.1, variando la temperatura de muestreo en 39 problemas matemáticos desafiantes. Se encontró que el prompting de disparo cero alcanza su máximo rendimiento a temperaturas moderadas, mientras que el chain-of-thought funciona mejor en los extremos de temperatura, aumentando el beneficio del razonamiento extendido.

30
RESEARCHarXiv CS.CL·16/4/2026

Mathematical Reasoning Enhanced LLM for Formula Derivation: A Case Study on Fiber NLI Modellin

Esta investigación presenta un enfoque de IA generativa mejorado con razonamiento matemático para la derivación de fórmulas de comunicación óptica, centrándose en el modelado de interferencia no lineal de fibra. El estudio reconstruyó expresiones conocidas y derivó una nueva aproximación utilizando un LLM, demostrando consistencia física y precisión práctica.

29
RESEARCHDEV.to AI·hace 22d

Solving Math Word Problems by Combining Language Models With Symbolic Solvers

Esta investigación explora un enfoque novedoso para resolver problemas matemáticos de texto combinando el poder de los modelos de lenguaje con la precisión de los solucionadores simbólicos. El método busca aprovechar tanto la comprensión del lenguaje natural como el razonamiento matemático formal para lograr soluciones robustas.

28
RESEARCHarXiv CS.AI·hace 21d

LinAlg-Bench: A Forensic Benchmark Revealing Structural Failure Modes in LLM Mathematical Reasoning

LinAlg-Bench es un nuevo benchmark diagnóstico que evalúa 10 modelos de lenguaje grandes (LLMs) de frontera en computación estructurada de álgebra lineal, revelando modos de falla estructurales. Este evalúa el rendimiento de los LLMs en un gradiente dimensional de matrices, clasificando los fallos en diez tipos de errores primarios y detectando un umbral de comportamiento en matrices de 4x4.

28
RESEARCHarXiv CS.CL·30/4/2026

MATH-PT: A Math Reasoning Benchmark for European and Brazilian Portuguese

Este artículo introduce MATH-PT, un nuevo conjunto de datos de 1.729 problemas matemáticos en portugués europeo y brasileño, para abordar el sesgo lingüístico en la evaluación del razonamiento matemático de LLMs. La evaluación de modelos de vanguardia muestra un buen rendimiento en preguntas de opción múltiple, pero su rendimiento disminuye en preguntas abiertas.

27
RESEARCHarXiv CS.AI·27/4/2026

Math Takes Two: A test for emergent mathematical reasoning in communication

Este artículo propone Math Takes Two, un nuevo benchmark diseñado para evaluar el razonamiento matemático emergente en modelos de lenguaje a través de la comunicación. Prueba si dos agentes, sin conocimiento matemático previo, pueden desarrollar un protocolo simbólico compartido para resolver una tarea visualmente fundamentada que facilita la extrapolación numérica.

27
RESEARCHarXiv CS.AI·hace 15d

RMA: an Agentic System for Research-Level Mathematical Problems

Research Math Agents (RMA) es un marco agéntico diseñado para el razonamiento automatizado en problemas matemáticos de nivel de investigación complejos, diferenciándose de trabajos previos en matemáticas de competición o prueba formal de teoremas. RMA emplea módulos especializados y agentes coordinados que generan, refinan y verifican colaborativamente pruebas candidatas a través de un flujo de trabajo de múltiples roles y rondas, utilizando una memoria estructurada compartida.

27
RESEARCHarXiv CS.AI·hace 12d

LaneRoPE: Positional Encoding for Collaborative Parallel Reasoning and Generation

LaneRoPE es una técnica novedosa diseñada para mejorar la generación paralela de Modelos de Lenguaje Grandes (LLMs) al permitir la coordinación y colaboración entre múltiples secuencias en tiempo de prueba. Esto se logra mediante una máscara de atención inter-secuencia y una extensión RoPE que inyecta información posicional, mostrando resultados prometedores en tareas de razonamiento matemático.

27
RESEARCHarXiv CS.CL·7/4/2026

Vocabulary Dropout for Curriculum Diversity in LLM Co-Evolution

A pesquisa aborda a queda de diversidade em sistemas de co-evolução de LLMs, onde um modelo gera problemas e outro os resolve, comprometendo o aprendizado de currículo autônomo. Para resolver isso, introduz o 'vocabulary dropout', uma máscara aleatória para manter a diversidade, resultando em melhorias no desempenho de solvers em raciocínio matemático.

27
RESEARCHarXiv CS.LG·6/4/2026

LLM Reasoning with Process Rewards for Outcome-Guided Steps

Este conteúdo apresenta o PROGRS, um framework para melhorar o raciocínio matemático em LLMs, combinando modelos de recompensa de processo (PRMs) com a priorização da correção do resultado final. Ele busca resolver o problema de PRMs que podem recompensar raciocínios intermediários fluentes, mas que levam a respostas incorretas, otimizando o aprendizado com feedback mais alinhado.

27