reinforcement learning

153 items

RESEARCHarXiv CS.CL·5/7/2026

Free Energy-Driven Reinforcement Learning with Adaptive Advantage Shaping for Unsupervised Reasoning in LLMs

FREIA ist ein neuartiger Reinforcement-Learning-Algorithmus, der LLMs für unbeaufsichtigtes Denken verbessert und die mangelnde Anpassungsfähigkeit bestehender Methoden adressiert. Er nutzt Free Energy-Driven Reward (FER), um Konsens und Exploration auszugleichen, sowie Adaptive Advantage Shaping (AAS), um Lernsignale anzupassen. FREIA übertrifft unbeaufsichtigte Baselines in verschiedenen Denkaufgaben, insbesondere im mathematischen Denken.

LLMs reinforcement learning AI algorithms Reasoning

RESEARCHarXiv CS.CL·vor 26T

Dual Hierarchical Dialogue Policy Learning for Legal Inquisitive Conversational Agents

Diese Forschung stellt Inquisitive Conversational Agents (ICAs) vor, die entwickelt wurden, um proaktiv Informationen zu extrahieren, speziell zugeschnitten auf mündliche Argumente des US-Obersten Gerichtshofs. Sie schlägt ein Dual Hierarchical Reinforcement Learning Framework vor, um strategisches Dialogmanagement und feingliedrige Äußerungsgenerierung zu koordinieren, wodurch es Baselines deutlich übertrifft.

reinforcement learning legal tech dialogue systems Conversational AI

RESEARCHarXiv CS.LG·vor 22T

Language Game: Talking to Non-Human Systems

Dieser Artikel untersucht die direkte Kommunikation mit nicht-menschlichen Systemen (wie Genregulationsnetzwerken oder Pilzen), die als Rechensubstrate anerkannt sind, und geht über LLMs als Stellvertreter hinaus. Er schlägt einen "Sprachspiel"-Ansatz mit Reinforcement Learning vor, um diesen Systemen zu ermöglichen, "in ihrer eigenen Stimme zu sprechen".

reinforcement learning AI communication large language models non-human systems

RESEARCHarXiv CS.CL·vor 8T

CSRP: Chain-of-Thought Reasoning for Chinese Text Correction via Reinforcement Learning with Efficiency-Aware Rewards

Dieses Papier schlägt CSRP vor, ein dreistufiges Framework zur Korrektur chinesischer Grammatikfehler (CGEC) mithilfe großer Sprachmodelle (LLMs). CSRP begegnet den Herausforderungen allgemeiner Modelle und der Metrikoptimierung mit kontinuierlichem Vortraining, Chain-of-Thought SFT und Richtlinienoptimierung mit effizienzbewussten Belohnungen, die unnötige Bearbeitungen bestrafen, und erreicht damit Spitzenleistungen im NACGEC-Benchmark.

reinforcement learning Grammar Correction Natural Language Processing AI Research

RESEARCHarXiv CS.AI·5/11/2026

Weblica: Scalable and Reproducible Training Environments for Visual Web Agents

Dieses Papier stellt Weblica vor, ein Framework zur Erstellung reproduzierbarer und skalierbarer Web-Umgebungen für visuelle Web-Agenten. Es nutzt HTTP-Level-Caching und LLM-basierte Umgebungs-Synthese, um das RL-Training auf Tausende verschiedener Umgebungen und Aufgaben zu skalieren und übertrifft Baselines bei Web-Navigations-Benchmarks.

Scalability reinforcement learning machine learning AI agents

RESEARCHarXiv CS.LG·vor 22T

Investigating Action Encodings in Recurrent Neural Networks in Reinforcement Learning

Diese Arbeit untersucht, wie Aktionsinformationen in die Zustandsaktualisierungsfunktion einer rekurrenten Zelle in rekurrenten neuronalen Netzen (RNNs) für das Reinforcement Learning (RL) integriert werden können. Die Autoren diskutieren verschiedene Optionen und bewerten die resultierenden Architekturen empirisch anhand illustrativer Domänen.

State Building reinforcement learning learning Action Encodings

RESEARCHarXiv CS.LG·vor 27T

Plan Before You Trade: Inference-Time Optimization for RL Trading Agents

Dieses Papier stellt FPILOT vor, ein Plugin-Inferenzzeit-Optimierungsframework für Reinforcement Learning Handelsagenten. Es nutzt vorhergesagte Preisverläufe, um die Strategie zur Inferenzzeit zu optimieren, bevor ein Handel ausgeführt wird, und ist mit jedem vortrainierten Agenten kompatibel.

Optimization financial trading reinforcement learning AI in finance

RESEARCHarXiv CS.LG·vor 28T

TMPO: Trajectory Matching Policy Optimization for Diverse and Efficient Diffusion Alignment

Trajectory Matching Policy Optimization (TMPO) begegnet dem Problem des Reward Hacking im Reinforcement Learning für Diffusionsmodelle, welches oft zum Modenkollaps führt und die generative Diversität mindert. Es ersetzt die skalare Belohnungsmaximierung durch das Abgleichen der Belohnungsverteilung auf Trajektorien-Ebene, indem es ein Softmax Trajectory Balance-Ziel verwendet, um die Policy-Wahrscheinlichkeiten mit einer belohnungsinduzierten Boltzmann-Verteilung in Einklang zu bringen.

Diffusion Models reinforcement learning AI alignment Generative AI

RESEARCHarXiv CS.LG·vor 8T

On Effectiveness and Efficiency of Agentic Tool-calling and RL Training

Dieses Papier untersucht das Tool-Calling in großen Sprachmodell-Agenten (LLMs) hinsichtlich Effektivität und Effizienz. Es zeigt, dass Evaluationspipelines sensibel auf Implementierungsentscheidungen reagieren und identifiziert Rechenverschwendung beim Reinforcement Learning-Training.

LLMs evaluation reinforcement learning tool-calling

RESEARCHarXiv CS.AI·vor 8T

MindGames Arena Generalization Track: In2AI Solution with Delayed Per-Step Reward Attribution

Diese Forschung stellt eine neue Methode zur verzögerten Belohnungszuschreibung pro Schritt für das Training von Sprachmodell-Agenten in Multi-Agenten-Strategieinteraktionen vor. Sie begegnet der Herausforderung verstrickter Ergebnisse, indem Belohnungen erst am Ende der Episode berechnet und zurückpropagiert werden, was stabiles und stichprobeneffizientes Reinforcement Learning ermöglicht.

language models Generalization reinforcement learning multi-agent systems

RESEARCHarXiv CS.CL·vor 27T

Correct Answers from Sound Reasoning: Verifiable Process Supervision for Language Models

Dieses Papier schlägt die Verifizierbare Prozessüberwachung (VPS) vor, ein Post-Training-Framework zur gemeinsamen Optimierung der Vorhersagegenauigkeit und der Argumentationsqualität von Sprachmodellen. VPS verwendet überwachtes Fine-Tuning, um ein strukturiertes Argumentationsformat zu induzieren, das Zwischenbehauptungen anhand von Ground-Truth-Signalen mit adaptiver Belohnungsgewichtung bewertet.

language models reinforcement learning AI training verifiable AI

RESEARCHarXiv CS.AI·vor 23T

ICRL: Learning to Internalize Self-Critique with Reinforcement Learning

ICRL schlägt ein neuartiges Framework vor, um große Sprachmodellagenten zu trainieren, Selbstkritik zu internalisieren und Feedback in unassistierte Problemlösungsfähigkeiten umzuwandeln. Es trainiert gemeinsam einen Solver und einen Kritiker aus einem gemeinsamen Backbone und belohnt den Kritiker für umsetzbares Feedback, um iterative Selbstverbesserung zu fördern.

reinforcement learning learning self-critique large language models

RESEARCHarXiv CS.LG·vor 27T

Multi-Rollout On-Policy Distillation via Peer Successes and Failures

Der Artikel stellt die Multi-Rollout On-Policy Distillation (MOPD) vor, ein Framework, das die lokalen Rollout-Gruppen eines Schülers nutzt, um informativere Lehrersignale für das Post-Training von LLMs zu konstruieren. MOPD konditioniert den Lehrer sowohl auf erfolgreiche als auch auf fehlgeschlagene Peer-Rollouts, wobei Erfolge positive Evidenz für gültige Denkmuster liefern und Misserfolge strukturierte negative Evidenz für vermeidbare Fehler.

distillation reinforcement learning AI training machine learning

RESEARCHarXiv CS.LG·vor 27T

Learning When to Act: Communication-Efficient Reinforcement Learning via Run-Time Assurance

Dieses Papier stellt einen kommunikationseffizienten Reinforcement-Learning-Ansatz vor, bei dem eine einzige Politik sowohl Steuerungs- als auch Timing-Entscheidungen lernt, geschützt durch ein punktuelles Lyapunov-Sicherheitsschild. Eine Laufzeit-Assurance-Schicht setzt die Politik außer Kraft, um strengere Sicherheitsgarantien zu bieten und deutlich höhere mittlere Abtastintervalle bei verschiedenen Systemen zu erzielen.

reinforcement learning machine learning safety-critical-ai Control Systems

RESEARCHarXiv CS.AI·vor 28T

RankQ: Offline-to-Online Reinforcement Learning via Self-Supervised Action Ranking

RankQ ist ein Offline-zu-Online-Reinforcement-Learning-Ziel, das die Stichprobeneffizienz durch die Nutzung vorab gesammelter Datensätze verbessert. Es begegnet der Herausforderung, einen genauen Kritiker in großen Zustands-Aktions-Räumen mit begrenzter Datenabdeckung zu lernen, indem es einen selbstüberwachten Mehrterm-Ranking-Verlust verwendet, der eine strukturierte Aktionsordnung erzwingt und die Q-Funktion zu höherwertigen Aktionen lenkt.

Offline-to-Online Learning Action Ranking reinforcement learning self-supervised learning

RESEARCHarXiv CS.AI·vor 27T

State-Centric Decision Process

Der State-Centric Decision Process (SDP) ist ein neues Framework, das den Mangel an Laufzeitstruktur in Sprachumgebungen, wie Webbrowsern, die Rohdaten anstelle von Zuständen emittieren, adressiert. Es ermöglicht einem Agenten, fehlende MDP-Eingaben wie Zustandsraum und zertifizierte Übergänge zu konstruieren, indem er Aktionen ausführt und Beobachtungen gegen natürlichsprachliche Prädikate prüft.

Decision Processes reinforcement learning Natural Language Processing AI agents

RESEARCHarXiv CS.AI·vor 23T

SDOF: Taming the Alignment Tax in Multi-Agent Orchestration with State-Constrained Dispatch

Dieses Papier stellt SDOF vor, ein Framework, das die Multi-Agenten-Ausführung als eingeschränkten Zustandsautomaten behandelt, um Geschäftsprozessbeschränkungen durchzusetzen. Es integriert einen RLHF-trainierten Intent Router und einen StateAwareDispatcher, der GPT-4o in einem adversariellen Routing-Benchmark in einem Rekrutierungssystem übertrifft.

hiring AI frameworks reinforcement learning orchestration

RESEARCHarXiv CS.LG·vor 21T

PROWL: Prioritized Regret-Driven Optimization for World Model Learning

PROWL führt ein KL-beschränktes adversarielles Curriculum ein, bei dem eine Policy fehlerintensive Trajektorien eines diffusionsbasierten Weltmodells aufdeckt. Diese Methode verbessert die Modellrobustheit, indem sie sich auf seltene, interaktionskritische Übergänge konzentriert und Fehler in ein stabiles, verteilungsnahes Trainingssignal umwandelt, ohne in Out-of-Distribution-Exploitation abzudriften.

reinforcement learning model learning security World Models

RESEARCHarXiv CS.AI·vor 12T

Behavior-Aware Auxiliary Corrections for Off-Policy Temporal-Difference Prediction

Dieses Papier führt verhaltensbewusste Hilfskorrekturen für die Off-Policy-Zeitdifferenzvorhersage ein, um das TD-Lernen mit Funktionsapproximation zu stabilisieren. Es ersetzt die TDC-Hilfsmatrix durch die Verhaltens-Bellman-Matrix, um BA-TDC und BA-TDRC zu entwickeln, und bietet ein Modell für die Hilfsgeometrie in der Wertfunktionsapproximation von neuronalen Netzen.

neural networks reinforcement learning learning temporal-difference learning

RESEARCHarXiv CS.LG·vor 12T

Self-Play Reinforcement Learning under Imperfect Information in Big 2

Diese Studie entwickelt ein Self-Play-Reinforcement-Learning-Framework für das Kartenspiel Big 2 mit unvollständigen Informationen. Die Forschung zeigt, dass PPO andere wertapproximierende Agenten übertrifft und von Entropieregulierung sowie aktuellem Policy-Self-Play profitiert.

reinforcement learning learning self-play imperfect-information-games