← heapsort-ai

reinforcement learning

153 items

RESEARCHarXiv CS.CL·5/7/2026

Free Energy-Driven Reinforcement Learning with Adaptive Advantage Shaping for Unsupervised Reasoning in LLMs

FREIA ist ein neuartiger Reinforcement-Learning-Algorithmus, der LLMs für unbeaufsichtigtes Denken verbessert und die mangelnde Anpassungsfähigkeit bestehender Methoden adressiert. Er nutzt Free Energy-Driven Reward (FER), um Konsens und Exploration auszugleichen, sowie Adaptive Advantage Shaping (AAS), um Lernsignale anzupassen. FREIA übertrifft unbeaufsichtigte Baselines in verschiedenen Denkaufgaben, insbesondere im mathematischen Denken.

27
RESEARCHarXiv CS.CL·vor 26T

Dual Hierarchical Dialogue Policy Learning for Legal Inquisitive Conversational Agents

Diese Forschung stellt Inquisitive Conversational Agents (ICAs) vor, die entwickelt wurden, um proaktiv Informationen zu extrahieren, speziell zugeschnitten auf mündliche Argumente des US-Obersten Gerichtshofs. Sie schlägt ein Dual Hierarchical Reinforcement Learning Framework vor, um strategisches Dialogmanagement und feingliedrige Äußerungsgenerierung zu koordinieren, wodurch es Baselines deutlich übertrifft.

27
RESEARCHarXiv CS.LG·vor 22T

Language Game: Talking to Non-Human Systems

Dieser Artikel untersucht die direkte Kommunikation mit nicht-menschlichen Systemen (wie Genregulationsnetzwerken oder Pilzen), die als Rechensubstrate anerkannt sind, und geht über LLMs als Stellvertreter hinaus. Er schlägt einen "Sprachspiel"-Ansatz mit Reinforcement Learning vor, um diesen Systemen zu ermöglichen, "in ihrer eigenen Stimme zu sprechen".

27
RESEARCHarXiv CS.CL·vor 8T

CSRP: Chain-of-Thought Reasoning for Chinese Text Correction via Reinforcement Learning with Efficiency-Aware Rewards

Dieses Papier schlägt CSRP vor, ein dreistufiges Framework zur Korrektur chinesischer Grammatikfehler (CGEC) mithilfe großer Sprachmodelle (LLMs). CSRP begegnet den Herausforderungen allgemeiner Modelle und der Metrikoptimierung mit kontinuierlichem Vortraining, Chain-of-Thought SFT und Richtlinienoptimierung mit effizienzbewussten Belohnungen, die unnötige Bearbeitungen bestrafen, und erreicht damit Spitzenleistungen im NACGEC-Benchmark.

27
RESEARCHarXiv CS.AI·5/11/2026

Weblica: Scalable and Reproducible Training Environments for Visual Web Agents

Dieses Papier stellt Weblica vor, ein Framework zur Erstellung reproduzierbarer und skalierbarer Web-Umgebungen für visuelle Web-Agenten. Es nutzt HTTP-Level-Caching und LLM-basierte Umgebungs-Synthese, um das RL-Training auf Tausende verschiedener Umgebungen und Aufgaben zu skalieren und übertrifft Baselines bei Web-Navigations-Benchmarks.

27
RESEARCHarXiv CS.LG·vor 22T

Investigating Action Encodings in Recurrent Neural Networks in Reinforcement Learning

Diese Arbeit untersucht, wie Aktionsinformationen in die Zustandsaktualisierungsfunktion einer rekurrenten Zelle in rekurrenten neuronalen Netzen (RNNs) für das Reinforcement Learning (RL) integriert werden können. Die Autoren diskutieren verschiedene Optionen und bewerten die resultierenden Architekturen empirisch anhand illustrativer Domänen.

27
RESEARCHarXiv CS.LG·vor 28T

TMPO: Trajectory Matching Policy Optimization for Diverse and Efficient Diffusion Alignment

Trajectory Matching Policy Optimization (TMPO) begegnet dem Problem des Reward Hacking im Reinforcement Learning für Diffusionsmodelle, welches oft zum Modenkollaps führt und die generative Diversität mindert. Es ersetzt die skalare Belohnungsmaximierung durch das Abgleichen der Belohnungsverteilung auf Trajektorien-Ebene, indem es ein Softmax Trajectory Balance-Ziel verwendet, um die Policy-Wahrscheinlichkeiten mit einer belohnungsinduzierten Boltzmann-Verteilung in Einklang zu bringen.

27
RESEARCHarXiv CS.AI·vor 8T

MindGames Arena Generalization Track: In2AI Solution with Delayed Per-Step Reward Attribution

Diese Forschung stellt eine neue Methode zur verzögerten Belohnungszuschreibung pro Schritt für das Training von Sprachmodell-Agenten in Multi-Agenten-Strategieinteraktionen vor. Sie begegnet der Herausforderung verstrickter Ergebnisse, indem Belohnungen erst am Ende der Episode berechnet und zurückpropagiert werden, was stabiles und stichprobeneffizientes Reinforcement Learning ermöglicht.

27
RESEARCHarXiv CS.CL·vor 27T

Correct Answers from Sound Reasoning: Verifiable Process Supervision for Language Models

Dieses Papier schlägt die Verifizierbare Prozessüberwachung (VPS) vor, ein Post-Training-Framework zur gemeinsamen Optimierung der Vorhersagegenauigkeit und der Argumentationsqualität von Sprachmodellen. VPS verwendet überwachtes Fine-Tuning, um ein strukturiertes Argumentationsformat zu induzieren, das Zwischenbehauptungen anhand von Ground-Truth-Signalen mit adaptiver Belohnungsgewichtung bewertet.

27
RESEARCHarXiv CS.AI·vor 23T

ICRL: Learning to Internalize Self-Critique with Reinforcement Learning

ICRL schlägt ein neuartiges Framework vor, um große Sprachmodellagenten zu trainieren, Selbstkritik zu internalisieren und Feedback in unassistierte Problemlösungsfähigkeiten umzuwandeln. Es trainiert gemeinsam einen Solver und einen Kritiker aus einem gemeinsamen Backbone und belohnt den Kritiker für umsetzbares Feedback, um iterative Selbstverbesserung zu fördern.

27
RESEARCHarXiv CS.LG·vor 27T

Multi-Rollout On-Policy Distillation via Peer Successes and Failures

Der Artikel stellt die Multi-Rollout On-Policy Distillation (MOPD) vor, ein Framework, das die lokalen Rollout-Gruppen eines Schülers nutzt, um informativere Lehrersignale für das Post-Training von LLMs zu konstruieren. MOPD konditioniert den Lehrer sowohl auf erfolgreiche als auch auf fehlgeschlagene Peer-Rollouts, wobei Erfolge positive Evidenz für gültige Denkmuster liefern und Misserfolge strukturierte negative Evidenz für vermeidbare Fehler.

27
RESEARCHarXiv CS.LG·vor 27T

Learning When to Act: Communication-Efficient Reinforcement Learning via Run-Time Assurance

Dieses Papier stellt einen kommunikationseffizienten Reinforcement-Learning-Ansatz vor, bei dem eine einzige Politik sowohl Steuerungs- als auch Timing-Entscheidungen lernt, geschützt durch ein punktuelles Lyapunov-Sicherheitsschild. Eine Laufzeit-Assurance-Schicht setzt die Politik außer Kraft, um strengere Sicherheitsgarantien zu bieten und deutlich höhere mittlere Abtastintervalle bei verschiedenen Systemen zu erzielen.

27
RESEARCHarXiv CS.AI·vor 28T

RankQ: Offline-to-Online Reinforcement Learning via Self-Supervised Action Ranking

RankQ ist ein Offline-zu-Online-Reinforcement-Learning-Ziel, das die Stichprobeneffizienz durch die Nutzung vorab gesammelter Datensätze verbessert. Es begegnet der Herausforderung, einen genauen Kritiker in großen Zustands-Aktions-Räumen mit begrenzter Datenabdeckung zu lernen, indem es einen selbstüberwachten Mehrterm-Ranking-Verlust verwendet, der eine strukturierte Aktionsordnung erzwingt und die Q-Funktion zu höherwertigen Aktionen lenkt.

27
RESEARCHarXiv CS.AI·vor 27T

State-Centric Decision Process

Der State-Centric Decision Process (SDP) ist ein neues Framework, das den Mangel an Laufzeitstruktur in Sprachumgebungen, wie Webbrowsern, die Rohdaten anstelle von Zuständen emittieren, adressiert. Es ermöglicht einem Agenten, fehlende MDP-Eingaben wie Zustandsraum und zertifizierte Übergänge zu konstruieren, indem er Aktionen ausführt und Beobachtungen gegen natürlichsprachliche Prädikate prüft.

27
RESEARCHarXiv CS.AI·vor 23T

SDOF: Taming the Alignment Tax in Multi-Agent Orchestration with State-Constrained Dispatch

Dieses Papier stellt SDOF vor, ein Framework, das die Multi-Agenten-Ausführung als eingeschränkten Zustandsautomaten behandelt, um Geschäftsprozessbeschränkungen durchzusetzen. Es integriert einen RLHF-trainierten Intent Router und einen StateAwareDispatcher, der GPT-4o in einem adversariellen Routing-Benchmark in einem Rekrutierungssystem übertrifft.

27
RESEARCHarXiv CS.LG·vor 21T

PROWL: Prioritized Regret-Driven Optimization for World Model Learning

PROWL führt ein KL-beschränktes adversarielles Curriculum ein, bei dem eine Policy fehlerintensive Trajektorien eines diffusionsbasierten Weltmodells aufdeckt. Diese Methode verbessert die Modellrobustheit, indem sie sich auf seltene, interaktionskritische Übergänge konzentriert und Fehler in ein stabiles, verteilungsnahes Trainingssignal umwandelt, ohne in Out-of-Distribution-Exploitation abzudriften.

27
RESEARCHarXiv CS.AI·vor 12T

Behavior-Aware Auxiliary Corrections for Off-Policy Temporal-Difference Prediction

Dieses Papier führt verhaltensbewusste Hilfskorrekturen für die Off-Policy-Zeitdifferenzvorhersage ein, um das TD-Lernen mit Funktionsapproximation zu stabilisieren. Es ersetzt die TDC-Hilfsmatrix durch die Verhaltens-Bellman-Matrix, um BA-TDC und BA-TDRC zu entwickeln, und bietet ein Modell für die Hilfsgeometrie in der Wertfunktionsapproximation von neuronalen Netzen.

27