← heapsort-ai

reinforcement learning

153 items

RESEARCHarXiv CS.CL·vor 1T

Improving Cross-Lingual Factual Recall via Consistency-Driven Reinforcement Learning

Diese Forschung stellt PolyFact vor, einen mehrsprachigen faktischen QA-Datensatz, um die sprachübergreifende faktische Inkonsistenz in LLMs zu beheben. Es wird festgestellt, dass Reinforcement Learning mittels GRPO die sprachübergreifende faktenbasierte Wiedergabe und Generalisierung im Vergleich zu supervised Fine-Tuning konsistent verbessert.

60
RESEARCHarXiv CS.LG·vor 1T

MacArena: Benchmarking Computer Use Agents on an Online macOS Environment

MacArena ist ein neuer Benchmark für computergesteuerte Agenten (CUAs), die grafische Benutzeroberflächen (GUIs) unter macOS bedienen, und schließt eine Lücke in der Benchmark-Landschaft für diese Plattform. Er bietet 421 manuell verifizierte Aufgaben in 50 Anwendungen, die nativ auf Apple Silicon laufen, um CUAs über Linux-basierte Benchmarks hinaus herauszufordern.

60
RESEARCHarXiv CS.LG·vor 20Std

Offline Reinforcement Learning for Plasma Control in Nuclear Fusion: Codebase and Benchmark

Offline-Reinforcement Learning ist vielversprechend für die Entwicklung von Plasmareglern aus historischen Tokamak-Daten. Es wird RL4F vorgestellt, ein Benchmark für Offline-Reinforcement Learning in der Kernfusions-Plasmaregelung, der Baselines bewertet und feststellt, dass modellbasierte RL-Methoden die besten Ergebnisse liefern.

54
RESEARCHarXiv CS.CL·vor 20Std

TinyJudge: Unverifiable Constraint Alignment via Lightweight Specialist Ensembles

Der Artikel stellt TinyJudge vor, ein Framework, das ein Ensemble spezialisierter kleiner Sprachmodelle (0.6B) verwendet, um leichte und hochpräzise Belohnungen für weiche, nicht überprüfbare Einschränkungen bei der Befolgung von Anweisungen durch LLMs zu liefern. Dieser Ansatz behebt Engpässe wie Reward Hacking und hohen Rechenaufwand bei herkömmlichen LLM-as-a-Judge-Methoden zur Einschränkungsanpassung.

54
RESEARCH↑ trendingReddit r/MachineLearning·4/15/2026

Trained a Qwen2.5-0.5B-Instruct bf16 model on Reddit post summarization task with GRPO written from scratch in PyTorch - updates! [P]

Der Autor trainierte erfolgreich ein Qwen2.5-0.5B-Instruct Modell zur Reddit-Post-Zusammenfassung mittels GRPO, wobei eine durchschnittliche Ausgabelänge von 64 Tokens mit kombinierten Qualitäts- und Längenbelohnungen erreicht wurde. Das auf einem Mac Mini Cluster durchgeführte Experiment nutzt ein LLM-as-a-Judge (GPT-5) zur Evaluierung und plant zukünftige Iterationen mit angepassten Belohnungsfunktionen.

Trained a Qwen2.5-0.5B-Instruct bf16 model on Reddit post summarization task with GRPO written from scratch in PyTorch - updates! [P]
44
RESEARCHarXiv CS.CL·4/23/2026

PR-CAD: Progressive Refinement for Unified Controllable and Faithful Text-to-CAD Generation with Large Language Models

PR-CAD stellt ein progressives Verfeinerungsframework vor, das die Text-zu-CAD-Generierung und -Bearbeitung vereint und so die Einschränkungen getrennter Ansätze überwindet. Es nutzt einen hochauflösenden Interaktionsdatensatz und ein mit Reinforcement Learning verbessertes Denkframework, das auf LLMs zugeschnitten ist, um eine steuerbare und originalgetreue CAD-Modellierung zu ermöglichen.

43
RESEARCH↑ trendingReddit r/MachineLearning·4/16/2026

Training Qwen2.5-0.5B-Instruct on Reddit posts summarization tasks with length constraint on my 3xMac Minis with GRPO - evals update [P]

Der Autor trainierte Qwen2.5-0.5B-Instruct für die Zusammenfassung von Reddit-Posts mithilfe zweier Belohnungsstrategien und stellte fest, dass eine Kombination aus Qualitäts- und Längenabzügen deutlich bessere Ergebnisse lieferte. Die Evaluation erfolgte mittels LLM-As-A-Judge und DeepEval Tools für Metriken wie Gewissenhaftigkeit und Klarheit.

42
RESEARCH↑ trendingReddit r/MachineLearning·4/16/2026

Why dynamically routing multi-timescale advantages in PPO causes policy collapse (and a simple decoupled fix) [R]

Ein studentischer KI-Forscher entdeckte, warum die Fusion von Vorteilen unterschiedlicher Zeitskalen in PPO-Actor-Critic-Architekturen zum Strategiezusammenbruch führt. Dies geschieht aufgrund des Manipulierens des Surrogat-Ziels und der Präferenz des Routers für kurzfristige Horizonte wegen geringerer zeitlicher Unsicherheit.

42
ARTICLE↑ trendingReddit r/MachineLearning·4/9/2026

Studying Sutton and Barto's RL book and its connections to RL for LLMs (e.g., tool use, math reasoning, agents, and so on)? [D]

Um graduado em Matemática busca orientação para estudar Aprendizado por Reforço (RL) e suas conexões com LLMs, especialmente para aplicações em matemática. Ele questiona a relevância do livro 'Sutton e Barto' em um contexto moderno de LLMs e pede ajuda para focar em tópicos e algoritmos mais recentes como PPO e GRPO.

38
RESEARCHarXiv CS.AI·vor 5T

StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis

StepPRM-RTL ist ein neuartiges Framework, das die LLM-basierte RTL-Codegenerierung verbessert, indem es schrittweise Trajektorienmodellierung, Prozess-Reward-Modellierung (PRM) und retrieval-augmented Fine-Tuning (RAFT) kombiniert. Es nutzt dichtes Feedback eines PRM, um verstärkungsbasierte Updates zu leiten, und Monte Carlo Tree Search (MCTS) zur Anreicherung des Trainingsdatensatzes.

33
RESEARCHarXiv CS.LG·4/16/2026

Pareto-Optimal Offline Reinforcement Learning via Smooth Tchebysheff Scalarization

Dieses Papier stellt STOMP vor, einen neuartigen Offline-Reinforcement-Learning-Algorithmus zur Mehrzieloptimierung mittels glatter Tchebyscheff-Skalarisierung. Er behebt die Einschränkung der linearen Skalarisierung bei der Wiederherstellung nicht-konvexer Pareto-Fronten, was entscheidend für die Ausrichtung großer Sprachmodelle und anderer realer Anwendungen mit widersprüchlichen Belohnungen ist.

31
RESEARCHarXiv CS.LG·4/16/2026

Automated co-design of high-performance thermodynamic cycles via graph-based hierarchical reinforcement learning

Diese Studie stellt einen graphenbasierten hierarchischen Reinforcement-Learning-Ansatz für das automatisierte Co-Design leistungsstarker thermodynamischer Zyklen vor. Dabei werden Zyklen als Graphen kodiert, ein Deep-Learning-Surrogat zur Dekodierung verwendet und ein hierarchisches RL-Framework für die strukturelle Evolution sowie Parameteroptimierung eingesetzt.

31
RESEARCHarXiv CS.LG·vor 5T

Self-Distilled Policy Gradient

Dieses Papier stellt den Self-Distilled Policy Gradient (SDPG) vor, ein neuartiges Framework, das spärlich belohntes Reinforcement Learning durch On-Policy-Selbst-Destillation verbessert. SDPG kombiniert gruppenrelative Verifizierervorteile, exakte vollständige Vokabular-On-Policy-Selbst-Destillation und Referenz-Policy-KL-Regularisierung und zeigt eine verbesserte Stabilität und Leistung gegenüber bestehenden Baselines.

31
RESEARCHarXiv CS.LG·4/21/2026

Beyond Verifiable Rewards: Rubric-Based GRM for Reinforced Fine-Tuning SWE Agents

Diese Forschung stellt ein rubrikbasiertes Generatives Belohnungsmodell (GRM) vor, um das verstärkte Fein-Tuning (RFT) für LLM-Agenten bei Software-Engineering-Aufgaben (SWE) zu verbessern. Durch die Bereitstellung reichhaltigerer Lernsignale jenseits binärer Endbelohnungen formt dieser Ansatz Zwischenverhalten und verbessert die Qualität des Lösungsprozesses erheblich.

31
RESEARCHarXiv CS.LG·4/22/2026

Discrete Tilt Matching

Discrete Tilt Matching (DTM) ist eine neue, wahrscheinlichkeitstheorie-freie Methode zum Fine-Tuning maskierter Diffusions-Sprachmodelle (dLLMs), die das Problem der nicht bestimmbaren marginalen Wahrscheinlichkeiten löst. Sie formuliert das Fine-Tuning als Zustandsabgleich um und verwendet ein gewichtetes Kreuzentropie-Ziel mit Kontrollvariablen, wodurch sie signifikante Verbesserungen bei Aufgaben wie Sudoku und Countdown erzielt.

30
RESEARCHarXiv CS.AI·vor 19T

Tool-Augmented Agent for Closed-loop Optimization,Simulation,and Modeling Orchestration

Das COSMO-Agent-Framework nutzt werkzeuggestützte Reinforcement Learning, um LLMs beizubringen, die semantische Lücke zwischen CAD und CAE zu schließen und so eine Closed-Loop-Optimierung im Industriedesign zu ermöglichen. Es verwendet eine interaktive RL-Umgebung für CAD-Generierung, CAE-Lösung und Geometrierevision, gesteuert durch eine Belohnung mit mehreren Einschränkungen.

30