← heapsort-ai

reinforcement learning

153 items

RESEARCHarXiv CS.CL·vor 27T

ReAD: Reinforcement-Guided Capability Distillation for Large Language Models

ReAD schlägt einen verstärkungsgesteuerten Ansatz zur Fähigkeitsdestillation für Große Sprachmodelle (LLMs) vor, um Modelle zu komprimieren und dabei wesentliche Fähigkeiten für nachgelagerte Aufgaben zu erhalten. Dieser Rahmen berücksichtigt explizit die Interdependenz von Fähigkeiten, um das Token-Budget zu optimieren und die Degradierung nützlicher Fähigkeiten zu verhindern.

28
RESEARCHarXiv CS.LG·vor 12T

Personalized Observation Normalization for Federated Reinforcement Learning in Simulation Environments with Heterogeneity

Dieses Papier stellt eine personalisierte Beobachtungsnormalisierungsmethode (PON) für föderiertes Reinforcement Learning (FedRL) vor, um Herausforderungen in heterogenen Umgebungen zu bewältigen. PON ermöglicht es jedem Agenten, lokale Zustandseingaben zu normalisieren, wodurch eine konsistente Skalierung gewährleistet und die Leistung bei heterogenen MuJoCo-Aufgaben verbessert wird.

28
RESEARCHarXiv CS.AI·4/13/2026

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

Sequence-Level PPO (SPPO) behebt die Einschränkungen des standardmäßigen Token-Level PPO bei langfristigen LLM-Begründungsaufgaben, indem es den Prozess als ein Sequence-Level Contextual Bandit-Problem neu formuliert. Dieser Ansatz nutzt eine entkoppelte skalare Wertfunktion, um Vorteilssignale mit geringer Varianz abzuleiten, was eine verbesserte Stichprobeneffizienz und Stabilität ohne den hohen Rechenaufwand kritikerfreier Alternativen bietet.

28
RESEARCHarXiv CS.AI·4/16/2026

Exploration and Exploitation Errors Are Measurable for Language Model Agents

Diese Forschung stellt eine Methode zur systematischen Quantifizierung von Explorations- und Exploitationsfehlern in Sprachmodell-Agenten (LM) vor, die die Herausforderung der Evaluierung ohne Zugang zu internen Richtlinien angeht. Sie schlägt kontrollierbare Umgebungen und eine strategieunabhängige Metrik zur Messung dieser Fehler vor, wodurch Mängel selbst in hochmodernen LMs aufgedeckt werden.

28
RESEARCHarXiv CS.LG·4/8/2026

Enhancing sample efficiency in reinforcement-learning-based flow control: replacing the critic with an adaptive reduced-order model

Este trabalho introduz uma estrutura de aprendizado por reforço baseada em modelo de ordem reduzida (ROM) adaptativo para controle de fluxo ativo. Ele visa melhorar a eficiência de amostragem do DRL, substituindo o crítico por um ROM que estima gradientes e se atualiza continuamente com novos dados.

28
ARTICLEDEV.to AI·4/19/2026

Meta-Optimized Continual Adaptation for bio-inspired soft robotics maintenance with zero-trust governance guarantees

Der Autor erlebte eine erhebliche Leistungsdegradation bei einem bio-inspirierten Softroboter, was die Unzulänglichkeit standardmäßiger Reinforcement-Learning-Ansätze für dynamische Sim-to-Real-Gaps aufzeigte. Dies führte zur Entwicklung einer meta-optimierten kontinuierlichen Anpassung für die Wartung, ergänzt durch Zero-Trust-Governance.

28
RESEARCHDEV.to AI·vor 27T

Meta-Optimized Continual Adaptation for smart agriculture microgrid orchestration during mission-critical recovery windows

Der Text behandelt das Versagen statischer KI-Modelle in dynamischen und unvorhersehbaren Umgebungen, veranschaulicht durch den Ausfall eines RL-Agenten während eines Stromausfalls in einem intelligenten Agrar-Mikronetz. Dieses kritische Ereignis motivierte die Erforschung der meta-optimierten kontinuierlichen Anpassung zur Systemresilienz.

28
RESEARCHarXiv CS.LG·vor 5T

Position: Deployed Reinforcement Learning should be Continual

Dieses Positionspapier argumentiert, dass eingesetzte Reinforcement Learning (RL)-Agenten kontinuierliches Lernen betreiben sollten, anstatt einem Train-then-Fix-Paradigma zu folgen. Es identifiziert vier Quellen der Nicht-Stationarität nach der Bereitstellung und betont die Notwendigkeit, dass Agenten sich kontinuierlich anpassen, um optimale Leistung in realen Szenarien zu erzielen.

28
RESEARCHarXiv CS.LG·vor 5T

Self-Distilled Policy Gradient

Dieses Papier stellt den Self-Distilled Policy Gradient (SDPG) vor, ein neuartiges Framework, das spärlich belohntes Reinforcement Learning durch On-Policy-Selbst-Destillation verbessert. SDPG kombiniert gruppenrelative Verifizierervorteile, exakte vollständige Vokabular-On-Policy-Selbst-Destillation und Referenz-Policy-KL-Regularisierung und zeigt eine verbesserte Stabilität und Leistung gegenüber bestehenden Baselines.

28
RESEARCHarXiv CS.AI·4/17/2026

GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

Diese Arbeit stellt Group Fine-Tuning (GFT) vor, ein vereinheitlichtes Post-Training-Framework für große Sprachmodelle. Es begegnet intrinsischen Einschränkungen des überwachten Fine-Tunings (SFT), wie der Single-Path-Abhängigkeit und dem Entropiekollaps, mittels Group Advantage Learning und Dynamic Coefficient Rectification.

27
RESEARCHarXiv CS.LG·4/22/2026

Curiosity-Critic: Cumulative Prediction Error Improvement as a Tractable Intrinsic Reward for World Model Training

Curiosity-Critic führt eine intrinsische Belohnung für das Training von Weltmodellen ein, die sich auf die Verbesserung des kumulativen Vorhersagefehlers statt nur der aktuellen Übergänge konzentriert. Es nutzt einen gelernten Kritiker, um eine asymptotische Fehlergrundlinie zu schätzen, trennt so effektiv epistemische von aleatorischen Fehlern und lenkt die Exploration auf lernbare Übergänge.

27
ARTICLEDEV.to AI·vor 20T

Continual Harness: The Gemini Pokémon Agent That Rewrites Its Own Loop

Die Continual Harness-Arbeit untersucht die Idee, dass ein KI-Agent, wie Gemini Plays Pokémon, seinen eigenen unterstützenden 'Harness'-Code in Echtzeit bearbeitet. Dies ermöglicht es dem Modell, seine Interaktionen und Werkzeuge mit der Umgebung zu verfeinern, anstatt menschliches Eingreifen für Anpassungen zu erfordern. Die Innovation ermöglicht es dem Agenten, während seiner Ausführung dynamisch zu lernen und sich anzupassen, wodurch seine Leistung verbessert wird.

27
RESEARCHarXiv CS.AI·4/13/2026

StaRPO: Stability-Augmented Reinforcement Policy Optimization

StaRPO ist ein neuartiges Reinforcement-Learning-Framework, das entwickelt wurde, um die logische Konsistenz und strukturelle Kohärenz großer Sprachmodelle bei komplexen Denkaufgaben zu verbessern. Es integriert explizit Stabilitätsmetriken wie die Autokorrelationsfunktion und Pfadeffizienz, um die lokale Schritt-für-Schritt-Kohärenz und die globale Zielgerichtetheit des Denkprozesses zu bewerten.

27
RESEARCHarXiv CS.AI·4/25/2026

Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

Dieses Papier stellt COSPLAY vor, ein Ko-Evolutions-Framework zur Verbesserung der Entscheidungsfindung von LLMs in Langzeitaufgaben. Es ermöglicht einem LLM-Agenten, Fähigkeiten aus einer lernbaren Fähigkeitenbank abzurufen, während eine Agenten-Pipeline wiederverwendbare Fähigkeiten aus ihren eigenen ungelabelten Rollouts entdeckt und speichert.

27
RESEARCHarXiv CS.LG·4/22/2026

Easy Samples Are All You Need: Self-Evolving LLMs via Data-Efficient Reinforcement Learning

Diese Forschung stellt EasyRL vor, einen neuartigen, dateneffizienten Reinforcement-Learning-Ansatz für selbstentwickelnde LLMs, der hohe Annotationskosten und Leistungsprobleme bestehender Methoden überwinden soll. Inspiriert von der kognitiven Lerntheorie, integriert EasyRL den Wissenstransfer von einfach gelabelten Daten mit einer progressiven Divide-and-Conquer-Strategie für zunehmend schwierigere ungelabelte Daten.

27
RESEARCHarXiv CS.AI·vor 26T

Macro-Action Based Multi-Agent Instruction Following through Value Cancellation

Diese Forschung stellt Macro-Action Value Correction for Instruction Compliance (MAVIC) vor, um Inkonsistenzen im Multi-Agenten-Reinforcement Learning zu beheben, wenn externe Anweisungen langfristige Ziele unterbrechen. MAVIC modifiziert Bellman-Backups an Anweisungsübergängen, um eine konsistente Wertschätzung unter stochastischem Anweisungswechsel innerhalb einer einheitlichen Richtlinie zu ermöglichen.

27
RESEARCHarXiv CS.LG·vor 21T

When Actions Disappear: Adversarial Action Removal in Self-Play Reinforcement Learning

Diese Forschung untersucht die gegnerische Aktionsmaskierung im Self-Play Reinforcement Learning, bei der ein Angreifer selektiv legale Aktionen aus dem Aktionssatz eines Opfers entfernt. Die Studie ergab, dass erlerntes Maskieren wesentlich mehr Schaden anrichtet als zufälliges Maskieren, wodurch die Verfügbarkeit von Aktionen als kritische Robustheitsoberfläche im Self-Play RL identifiziert wird.

27