reinforcement learning

153 items

RESEARCHarXiv CS.CL·vor 27T

ReAD: Reinforcement-Guided Capability Distillation for Large Language Models

ReAD schlägt einen verstärkungsgesteuerten Ansatz zur Fähigkeitsdestillation für Große Sprachmodelle (LLMs) vor, um Modelle zu komprimieren und dabei wesentliche Fähigkeiten für nachgelagerte Aufgaben zu erhalten. Dieser Rahmen berücksichtigt explizit die Interdependenz von Fähigkeiten, um das Token-Budget zu optimieren und die Degradierung nützlicher Fähigkeiten zu verhindern.

Model Compression Knowledge Distillation LLMs reinforcement learning

RESEARCHarXiv CS.LG·vor 12T

Personalized Observation Normalization for Federated Reinforcement Learning in Simulation Environments with Heterogeneity

Dieses Papier stellt eine personalisierte Beobachtungsnormalisierungsmethode (PON) für föderiertes Reinforcement Learning (FedRL) vor, um Herausforderungen in heterogenen Umgebungen zu bewältigen. PON ermöglicht es jedem Agenten, lokale Zustandseingaben zu normalisieren, wodurch eine konsistente Skalierung gewährleistet und die Leistung bei heterogenen MuJoCo-Aufgaben verbessert wird.

reinforcement learning machine learning federated learning Normalization

RESEARCHarXiv CS.AI·4/13/2026

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

Sequence-Level PPO (SPPO) behebt die Einschränkungen des standardmäßigen Token-Level PPO bei langfristigen LLM-Begründungsaufgaben, indem es den Prozess als ein Sequence-Level Contextual Bandit-Problem neu formuliert. Dieser Ansatz nutzt eine entkoppelte skalare Wertfunktion, um Vorteilssignale mit geringer Varianz abzuleiten, was eine verbesserte Stichprobeneffizienz und Stabilität ohne den hohen Rechenaufwand kritikerfreier Alternativen bietet.

LLMs reasoning tasks reinforcement learning PPO

RESEARCHarXiv CS.AI·4/16/2026

Exploration and Exploitation Errors Are Measurable for Language Model Agents

Diese Forschung stellt eine Methode zur systematischen Quantifizierung von Explorations- und Exploitationsfehlern in Sprachmodell-Agenten (LM) vor, die die Herausforderung der Evaluierung ohne Zugang zu internen Richtlinien angeht. Sie schlägt kontrollierbare Umgebungen und eine strategieunabhängige Metrik zur Messung dieser Fehler vor, wodurch Mängel selbst in hochmodernen LMs aufgedeckt werden.

language models reinforcement learning Evaluation Metrics AI agents

RESEARCHarXiv CS.LG·4/8/2026

Enhancing sample efficiency in reinforcement-learning-based flow control: replacing the critic with an adaptive reduced-order model

Este trabalho introduz uma estrutura de aprendizado por reforço baseada em modelo de ordem reduzida (ROM) adaptativo para controle de fluxo ativo. Ele visa melhorar a eficiência de amostragem do DRL, substituindo o crítico por um ROM que estima gradientes e se atualiza continuamente com novos dados.

Sample Efficiency reinforcement learning Flow Control Reduced-Order Models

ARTICLEDEV.to AI·4/19/2026

Meta-Optimized Continual Adaptation for bio-inspired soft robotics maintenance with zero-trust governance guarantees

Der Autor erlebte eine erhebliche Leistungsdegradation bei einem bio-inspirierten Softroboter, was die Unzulänglichkeit standardmäßiger Reinforcement-Learning-Ansätze für dynamische Sim-to-Real-Gaps aufzeigte. Dies führte zur Entwicklung einer meta-optimierten kontinuierlichen Anpassung für die Wartung, ergänzt durch Zero-Trust-Governance.

soft robotics reinforcement learning zero-trust maintenance

RESEARCHDEV.to AI·vor 27T

Meta-Optimized Continual Adaptation for smart agriculture microgrid orchestration during mission-critical recovery windows

Der Text behandelt das Versagen statischer KI-Modelle in dynamischen und unvorhersehbaren Umgebungen, veranschaulicht durch den Ausfall eines RL-Agenten während eines Stromausfalls in einem intelligenten Agrar-Mikronetz. Dieses kritische Ereignis motivierte die Erforschung der meta-optimierten kontinuierlichen Anpassung zur Systemresilienz.

smart agriculture reinforcement learning continual adaptation meta-optimization

RESEARCHarXiv CS.CL·4/7/2026

Self-Execution Simulation Improves Coding Models

Este trabalho demonstra que LLMs de código podem ser treinados para simular a execução de programas passo a passo, melhorando o desempenho em programação competitiva. A abordagem combina fine-tuning supervisionado e aprendizado por reforço, permitindo que os modelos realizem auto-verificação e correção iterativa.

LLMs reinforcement learning code generation program execution simulation

RESEARCHarXiv CS.LG·vor 5T

Position: Deployed Reinforcement Learning should be Continual

Dieses Positionspapier argumentiert, dass eingesetzte Reinforcement Learning (RL)-Agenten kontinuierliches Lernen betreiben sollten, anstatt einem Train-then-Fix-Paradigma zu folgen. Es identifiziert vier Quellen der Nicht-Stationarität nach der Bereitstellung und betont die Notwendigkeit, dass Agenten sich kontinuierlich anpassen, um optimale Leistung in realen Szenarien zu erzielen.

reinforcement learning learning Adaptive AI AI deployment

RESEARCHarXiv CS.LG·vor 5T

Self-Distilled Policy Gradient

Dieses Papier stellt den Self-Distilled Policy Gradient (SDPG) vor, ein neuartiges Framework, das spärlich belohntes Reinforcement Learning durch On-Policy-Selbst-Destillation verbessert. SDPG kombiniert gruppenrelative Verifizierervorteile, exakte vollständige Vokabular-On-Policy-Selbst-Destillation und Referenz-Policy-KL-Regularisierung und zeigt eine verbesserte Stabilität und Leistung gegenüber bestehenden Baselines.

language models deep learning reinforcement learning Policy Gradient

RESEARCHarXiv CS.AI·vor 11T

Behavior-Induced Mirror-Prox Temporal-Difference Learning for Faster Off-Policy Prediction

Dieses Papier stellt STHTD-MP vor, eine verhaltensinduzierte Mirror-Prox-Zeitdifferenzmethode für eine schnellere Off-Policy-Vorhersage. Sie ersetzt die Kovarianzmetrik durch den symmetrischen Teil der Bellman-Matrix der Verhaltenspolitik, was eine informativere Update-Geometrie bietet.

Off-Policy Prediction reinforcement learning learning temporal-difference learning

RESEARCHarXiv CS.AI·4/17/2026

GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

Diese Arbeit stellt Group Fine-Tuning (GFT) vor, ein vereinheitlichtes Post-Training-Framework für große Sprachmodelle. Es begegnet intrinsischen Einschränkungen des überwachten Fine-Tunings (SFT), wie der Single-Path-Abhängigkeit und dem Entropiekollaps, mittels Group Advantage Learning und Dynamic Coefficient Rectification.

LLMs reinforcement learning post-training machine learning

RESEARCHarXiv CS.LG·4/22/2026

Curiosity-Critic: Cumulative Prediction Error Improvement as a Tractable Intrinsic Reward for World Model Training

Curiosity-Critic führt eine intrinsische Belohnung für das Training von Weltmodellen ein, die sich auf die Verbesserung des kumulativen Vorhersagefehlers statt nur der aktuellen Übergänge konzentriert. Es nutzt einen gelernten Kritiker, um eine asymptotische Fehlergrundlinie zu schätzen, trennt so effektiv epistemische von aleatorischen Fehlern und lenkt die Exploration auf lernbare Übergänge.

Epistemic Uncertainty reinforcement learning World Models curiosity

RESEARCHarXiv CS.AI·4/22/2026

ARES: Adaptive Red-Teaming and End-to-End Repair of Policy-Reward System

ARES stellt ein Framework vor, das systemische Schwachstellen in RLHF-ausgerichteten LLMs adressiert, bei denen unvollkommene Belohnungsmodelle unsicheres Verhalten nicht bestrafen. Es nutzt einen „Safety Mentor“ für adaptives Red-Teaming, um diese dualen Schwachstellen sowohl im LLM als auch in dessen Belohnungsmodell aufzudecken und zu mindern.

LLMs reinforcement learning security

ARTICLEDEV.to AI·vor 20T

Continual Harness: The Gemini Pokémon Agent That Rewrites Its Own Loop

Die Continual Harness-Arbeit untersucht die Idee, dass ein KI-Agent, wie Gemini Plays Pokémon, seinen eigenen unterstützenden 'Harness'-Code in Echtzeit bearbeitet. Dies ermöglicht es dem Modell, seine Interaktionen und Werkzeuge mit der Umgebung zu verfeinern, anstatt menschliches Eingreifen für Anpassungen zu erfordern. Die Innovation ermöglicht es dem Agenten, während seiner Ausführung dynamisch zu lernen und sich anzupassen, wodurch seine Leistung verbessert wird.

Pokémon self-improvement reinforcement learning Gemini

RESEARCHarXiv CS.AI·4/13/2026

StaRPO: Stability-Augmented Reinforcement Policy Optimization

StaRPO ist ein neuartiges Reinforcement-Learning-Framework, das entwickelt wurde, um die logische Konsistenz und strukturelle Kohärenz großer Sprachmodelle bei komplexen Denkaufgaben zu verbessern. Es integriert explizit Stabilitätsmetriken wie die Autokorrelationsfunktion und Pfadeffizienz, um die lokale Schritt-für-Schritt-Kohärenz und die globale Zielgerichtetheit des Denkprozesses zu bewerten.

Policy optimization LLMs reinforcement learning Reasoning

RESEARCHarXiv CS.AI·4/25/2026

Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

Dieses Papier stellt COSPLAY vor, ein Ko-Evolutions-Framework zur Verbesserung der Entscheidungsfindung von LLMs in Langzeitaufgaben. Es ermöglicht einem LLM-Agenten, Fähigkeiten aus einer lernbaren Fähigkeitenbank abzurufen, während eine Agenten-Pipeline wiederverwendbare Fähigkeiten aus ihren eigenen ungelabelten Rollouts entdeckt und speichert.

LLMs reinforcement learning Skill Discovery AI agents

RESEARCHarXiv CS.LG·4/22/2026

Easy Samples Are All You Need: Self-Evolving LLMs via Data-Efficient Reinforcement Learning

Diese Forschung stellt EasyRL vor, einen neuartigen, dateneffizienten Reinforcement-Learning-Ansatz für selbstentwickelnde LLMs, der hohe Annotationskosten und Leistungsprobleme bestehender Methoden überwinden soll. Inspiriert von der kognitiven Lerntheorie, integriert EasyRL den Wissenstransfer von einfach gelabelten Daten mit einer progressiven Divide-and-Conquer-Strategie für zunehmend schwierigere ungelabelte Daten.

Data efficiency reinforcement learning machine learning LLM

RESEARCHarXiv CS.AI·vor 26T

Macro-Action Based Multi-Agent Instruction Following through Value Cancellation

Diese Forschung stellt Macro-Action Value Correction for Instruction Compliance (MAVIC) vor, um Inkonsistenzen im Multi-Agenten-Reinforcement Learning zu beheben, wenn externe Anweisungen langfristige Ziele unterbrechen. MAVIC modifiziert Bellman-Backups an Anweisungsübergängen, um eine konsistente Wertschätzung unter stochastischem Anweisungswechsel innerhalb einer einheitlichen Richtlinie zu ermöglichen.

Instruction Following reinforcement learning multi-agent systems Value Function

RESEARCHarXiv CS.LG·vor 21T

When Actions Disappear: Adversarial Action Removal in Self-Play Reinforcement Learning

Diese Forschung untersucht die gegnerische Aktionsmaskierung im Self-Play Reinforcement Learning, bei der ein Angreifer selektiv legale Aktionen aus dem Aktionssatz eines Opfers entfernt. Die Studie ergab, dass erlerntes Maskieren wesentlich mehr Schaden anrichtet als zufälliges Maskieren, wodurch die Verfügbarkeit von Aktionen als kritische Robustheitsoberfläche im Self-Play RL identifiziert wird.

reinforcement learning security self-play adversarial attacks