← heapsort-ai

mathematical reasoning

14 items

RESEARCHarXiv CS.LG·1d atrás

Skip a Layer or Loop It? Learning Program-of-Layers in LLMs

Esta pesquisa propõe "program-of-layers (PoLar)" para LLMs, permitindo o salto ou loop dinâmico de camadas pré-treinadas durante a inferência para alcançar precisão igual ou superior com caminhos de execução mais curtos. Uma rede de previsão leve aprende a gerar esses programas personalizados, demonstrando desempenho aprimorado em benchmarks de raciocínio matemático.

60
RESEARCHarXiv CS.AI·1d atrás

CrowdMath: A Dataset of Crowdsourced Mathematical Research Discussions

Este artigo apresenta CrowdMath, um conjunto de dados de 164 cadeias de progresso anotadas por especialistas do programa CrowdMath do MIT PRIMES--Art of Problem Solving. Ele visa avaliar modelos de linguagem grandes na resolução colaborativa de problemas matemáticos abertos, diferenciando-se das avaliações que focam apenas em respostas finais ou provas completas.

40
RESEARCHarXiv CS.AI·5d atrás

Characterizing initial human-AI proof formalization workflows

Este artigo investiga como as pessoas utilizam ferramentas de IA na formalização de provas matemáticas, um desafio histórico na verificação de argumentos matemáticos. Através de uma análise de métodos mistos, o estudo explora as preferências dos usuários e os desafios na integração da IA, com um desejo geral de assistência que preserve o controle humano de alto nível.

31
RESEARCHarXiv CS.CL·13/04/2026

Temperature-Dependent Performance of Prompting Strategies in Extended Reasoning Large Language Models

Este estudo avalia o desempenho de estratégias de prompting (chain-of-thought e zero-shot) em LLMs de raciocínio estendido como o Grok-4.1, variando a temperatura de amostragem em 39 problemas matemáticos desafiadores. Descobriu-se que o prompting zero-shot atinge o pico de desempenho em temperaturas moderadas, enquanto o chain-of-thought funciona melhor nos extremos, aumentando significativamente o benefício do raciocínio estendido.

30
RESEARCHarXiv CS.CL·16/04/2026

Mathematical Reasoning Enhanced LLM for Formula Derivation: A Case Study on Fiber NLI Modellin

Esta pesquisa apresenta uma abordagem de IA generativa aprimorada com raciocínio matemático para derivar fórmulas de comunicação óptica, focando na modelagem de interferência não linear em fibras. O estudo conseguiu reconstruir expressões conhecidas e derivar uma nova aproximação usando um LLM, demonstrando consistência física e precisão prática.

29
RESEARCHDEV.to AI·22d atrás

Solving Math Word Problems by Combining Language Models With Symbolic Solvers

Esta pesquisa explora uma abordagem inovadora para resolver problemas de matemática textuais, integrando o poder dos modelos de linguagem com a precisão dos solucionadores simbólicos. O método visa aproveitar tanto a compreensão da linguagem natural quanto o raciocínio matemático formal para alcançar soluções robustas.

28
RESEARCHarXiv CS.AI·21d atrás

LinAlg-Bench: A Forensic Benchmark Revealing Structural Failure Modes in LLM Mathematical Reasoning

LinAlg-Bench é um novo benchmark diagnóstico que avalia 10 grandes modelos de linguagem (LLMs) em computação de álgebra linear, revelando modos de falha estrutural. Ele analisa o desempenho dos LLMs em um gradiente dimensional de matrizes, classificando falhas em dez tipos de erros primários e identificando uma transição comportamental em matrizes 4x4.

28
RESEARCHarXiv CS.CL·30/04/2026

MATH-PT: A Math Reasoning Benchmark for European and Brazilian Portuguese

Este artigo apresenta o MATH-PT, um novo conjunto de dados com 1.729 problemas matemáticos em português europeu e brasileiro, para combater o viés linguístico nas avaliações de raciocínio matemático de LLMs. O benchmark revela que modelos de fronteira têm bom desempenho em questões de múltipla escolha, mas sua performance decai em perguntas abertas.

27
RESEARCHarXiv CS.AI·27/04/2026

Math Takes Two: A test for emergent mathematical reasoning in communication

Este artigo propõe o Math Takes Two, um novo benchmark para avaliar o raciocínio matemático emergente em modelos de linguagem através da comunicação. Ele testa a capacidade de dois agentes sem conhecimento matemático prévio de desenvolver um protocolo simbólico compartilhado para resolver uma tarefa visualmente fundamentada, facilitando a extrapolação numérica.

27
RESEARCHarXiv CS.AI·15d atrás

RMA: an Agentic System for Research-Level Mathematical Problems

Research Math Agents (RMA) é uma estrutura agêntica desenvolvida para raciocínio automatizado em problemas matemáticos complexos de nível de pesquisa, diferenciando-se de trabalhos anteriores em matemática competitiva ou prova de teoremas formais. RMA utiliza módulos especializados e agentes coordenados que colaboram na geração, refinamento e verificação de provas candidatas através de um fluxo de trabalho multi-função e multi-rodada, usando uma memória estruturada compartilhada.

27
RESEARCHarXiv CS.AI·12d atrás

LaneRoPE: Positional Encoding for Collaborative Parallel Reasoning and Generation

LaneRoPE é uma técnica inovadora projetada para aprimorar a geração paralela de Modelos de Linguagem Grandes (LLMs), permitindo a coordenação e colaboração entre múltiplas sequências durante o teste. Isso é alcançado através de uma máscara de atenção inter-sequência e uma extensão RoPE que injeta informações posicionais, mostrando resultados promissores em tarefas de raciocínio matemático.

27
RESEARCHarXiv CS.CL·07/04/2026

Vocabulary Dropout for Curriculum Diversity in LLM Co-Evolution

A pesquisa aborda a queda de diversidade em sistemas de co-evolução de LLMs, onde um modelo gera problemas e outro os resolve, comprometendo o aprendizado de currículo autônomo. Para resolver isso, introduz o 'vocabulary dropout', uma máscara aleatória para manter a diversidade, resultando em melhorias no desempenho de solvers em raciocínio matemático.

27
RESEARCHarXiv CS.LG·06/04/2026

LLM Reasoning with Process Rewards for Outcome-Guided Steps

Este conteúdo apresenta o PROGRS, um framework para melhorar o raciocínio matemático em LLMs, combinando modelos de recompensa de processo (PRMs) com a priorização da correção do resultado final. Ele busca resolver o problema de PRMs que podem recompensar raciocínios intermediários fluentes, mas que levam a respostas incorretas, otimizando o aprendizado com feedback mais alinhado.

27