← heapsort-ai

mathematical reasoning

14 items

RESEARCHarXiv CS.LG·vor 1T

Skip a Layer or Loop It? Learning Program-of-Layers in LLMs

Diese Forschung stellt "Program-of-Layers (PoLar)" für LLMs vor, das dynamisches Überspringen oder Wiederholen von vortrainierten Schichten während der Inferenz ermöglicht, um gleiche oder bessere Genauigkeit bei kürzeren Ausführungspfaden zu erzielen. Ein leichtgewichtiges Vorhersagenetzwerk lernt, diese maßgeschneiderten Programme zu generieren und zeigt verbesserte Leistung bei mathematischen Reasoning-Benchmarks.

60
RESEARCHarXiv CS.AI·vor 1T

CrowdMath: A Dataset of Crowdsourced Mathematical Research Discussions

Dieses Papier stellt CrowdMath vor, einen Datensatz von 164 von Experten annotierten Fortschrittsketten aus dem MIT PRIMES--Art of Problem Solving CrowdMath-Programm. Ziel ist es, große Sprachmodelle bei der kollaborativen Lösung offener mathematischer Probleme zu bewerten, abweichend von Benchmarks, die sich auf Endergebnisse oder vollständige Beweise konzentrieren.

40
RESEARCHarXiv CS.AI·vor 5T

Characterizing initial human-AI proof formalization workflows

Dieses Papier untersucht, wie Menschen KI-Tools bei der Formalisierung mathematischer Beweise nutzen, eine seit langem bestehende Herausforderung bei der Verifizierung mathematischer Argumente. Mittels einer Mixed-Methods-Analyse werden die Präferenzen der Benutzer und die Herausforderungen bei der KI-Integration untersucht, wobei ein allgemeiner Wunsch nach Unterstützung besteht, die eine hohe menschliche Kontrolle bewahrt.

31
RESEARCHarXiv CS.CL·4/13/2026

Temperature-Dependent Performance of Prompting Strategies in Extended Reasoning Large Language Models

Diese Studie bewertet die Leistung von Prompting-Strategien (Chain-of-Thought und Zero-Shot) in LLMs mit erweitertem Schlussfolgern wie Grok-4.1, wobei die Sampling-Temperatur bei 39 anspruchsvollen mathematischen Problemen variiert wurde. Dabei wurde festgestellt, dass Zero-Shot-Prompting bei moderaten Temperaturen seinen Höhepunkt erreicht, während Chain-of-Thought bei extremen Temperaturen am besten abschneidet und den Nutzen des erweiterten Schlussfolgerns erheblich steigert.

30
RESEARCHarXiv CS.CL·4/16/2026

Mathematical Reasoning Enhanced LLM for Formula Derivation: A Case Study on Fiber NLI Modellin

Diese Forschung stellt einen mathematisch begründeten generativen KI-Ansatz zur Ableitung von Formeln für die optische Kommunikation vor, insbesondere zur Modellierung nichtlinearer Interferenzen in Glasfasern. Durch die Anleitung eines LLM mit strukturierten Prompts rekonstruierte die Studie erfolgreich bekannte Ausdrücke und leitete eine neuartige Annäherung ab, die sowohl physikalische Konsistenz als auch praktische Genauigkeit zeigte.

29
RESEARCHDEV.to AI·vor 22T

Solving Math Word Problems by Combining Language Models With Symbolic Solvers

Diese Forschung untersucht einen neuartigen Ansatz zur Lösung mathematischer Textaufgaben durch die Kombination der Leistungsfähigkeit von Sprachmodellen mit der Präzision symbolischer Löser. Die Methode zielt darauf ab, sowohl das Verständnis natürlicher Sprache als auch formale mathematische Argumentation zu nutzen, um robuste Lösungen zu erzielen.

28
RESEARCHarXiv CS.AI·vor 21T

LinAlg-Bench: A Forensic Benchmark Revealing Structural Failure Modes in LLM Mathematical Reasoning

LinAlg-Bench ist ein neuer diagnostischer Benchmark, der 10 führende große Sprachmodelle (LLMs) bei strukturierten linearen Algebra-Berechnungen bewertet und strukturelle Fehlermodi aufdeckt. Er analysiert die Leistung von LLMs über einen dimensionalen Gradienten von Matrizen, klassifiziert Fehler in zehn primäre Fehlertypen und identifiziert eine Verhaltensschwelle bei 4x4-Matrizen.

28
RESEARCHarXiv CS.CL·4/30/2026

MATH-PT: A Math Reasoning Benchmark for European and Brazilian Portuguese

Dieser Artikel stellt MATH-PT vor, einen neuen Datensatz mit 1.729 mathematischen Problemen in europäischem und brasilianischem Portugiesisch, um die sprachliche Verzerrung bei der Bewertung des mathematischen Denkens von LLMs zu beheben. Der Benchmark zeigt, dass führende Modelle bei Multiple-Choice-Fragen eine starke Leistung erbringen, diese jedoch bei offenen Fragen abnimmt.

27
RESEARCHarXiv CS.AI·4/27/2026

Math Takes Two: A test for emergent mathematical reasoning in communication

Dieses Papier stellt Math Takes Two vor, einen neuen Benchmark zur Bewertung des emergenten mathematischen Denkens in Sprachmodellen durch Kommunikation. Es testet, ob zwei Agenten ohne mathematisches Vorwissen ein geteiltes symbolisches Protokoll entwickeln können, um eine visuell verankerte Aufgabe zu lösen, bei der ein Zahlensystem die Extrapolation erleichtert.

27
RESEARCHarXiv CS.AI·vor 15T

RMA: an Agentic System for Research-Level Mathematical Problems

Research Math Agents (RMA) ist ein agentisches Framework, das für automatisiertes Denken bei komplexen mathematischen Problemen auf Forschungsebene entwickelt wurde und sich von früheren Studien zu Wettbewerbsmathematik oder formalem Theorembeweis unterscheidet. RMA verwendet spezialisierte Module und koordinierte Agenten, die kollaborativ Kandidatenbeweise durch einen Multi-Rollen-, Multi-Runden-Workflow generieren, verfeinern und verifizieren, indem sie einen gemeinsamen strukturierten Speicher nutzen.

27
RESEARCHarXiv CS.AI·vor 12T

LaneRoPE: Positional Encoding for Collaborative Parallel Reasoning and Generation

LaneRoPE ist eine neuartige Technik zur Verbesserung der parallelen Generierung von Großen Sprachmodellen (LLMs), indem sie die Koordination und Zusammenarbeit zwischen mehreren Sequenzen zur Testzeit ermöglicht. Dies wird durch eine Inter-Sequenz-Aufmerksamkeitsmaske und eine RoPE-Erweiterung erreicht, die Positionsinformationen einführt und vielversprechende Ergebnisse bei mathematischen Denkaufgaben zeigt.

27
RESEARCHarXiv CS.CL·4/7/2026

Vocabulary Dropout for Curriculum Diversity in LLM Co-Evolution

A pesquisa aborda a queda de diversidade em sistemas de co-evolução de LLMs, onde um modelo gera problemas e outro os resolve, comprometendo o aprendizado de currículo autônomo. Para resolver isso, introduz o 'vocabulary dropout', uma máscara aleatória para manter a diversidade, resultando em melhorias no desempenho de solvers em raciocínio matemático.

27
RESEARCHarXiv CS.LG·4/6/2026

LLM Reasoning with Process Rewards for Outcome-Guided Steps

Este conteúdo apresenta o PROGRS, um framework para melhorar o raciocínio matemático em LLMs, combinando modelos de recompensa de processo (PRMs) com a priorização da correção do resultado final. Ele busca resolver o problema de PRMs que podem recompensar raciocínios intermediários fluentes, mas que levam a respostas incorretas, otimizando o aprendizado com feedback mais alinhado.

27