reinforcement learning

153 items

RESEARCHarXiv CS.AI·4/15/2026

When to Forget: A Memory Governance Primitive

Dieses Papier stellt Memory Worth (MW) als neue Metrik zur Steuerung der Speicherqualität in Agentensystemen vor, um zu entscheiden, welchen Erinnerungen zu vertrauen, welche zu unterdrücken oder welche zu verwerfen sind. MW nutzt ein Zwei-Zähler-System pro Speicher, das Kookkurrenzen mit erfolgreichen und fehlgeschlagenen Ergebnissen verfolgt und zur bedingten Erfolgswahrscheinlichkeit einer Aufgabe konvergiert.

Memory governance reinforcement learning memory management Agent systems

RESEARCHarXiv CS.LG·4/28/2026

CoFi-PGMA: Counterfactual Policy Gradients under Filtered Feedback for Multi-Agent LLMs

CoFi-PGMA ist ein neues Framework zur Optimierung des Lernens in Multi-Agenten-LLM-Systemen, das gefiltertes Feedback in Routing- und Kollaborationsszenarien adressiert. Es führt ein kontrafaktisches Pro-Agenten-Trainingsziel basierend auf dem Grenznutzen ein, um das Lernsignal zu korrigieren.

LLMs reinforcement learning multi-agent systems

RESEARCHarXiv CS.LG·4/28/2026

KARL: Mitigating Hallucinations in LLMs via Knowledge-Boundary-Aware Reinforcement Learning

KARL ist ein neuartiges Framework, das entwickelt wurde, um Halluzinationen in großen Sprachmodellen zu mindern, indem es ihnen ermöglicht, Fragen außerhalb ihres Wissensbereichs angemessen zu verweigern. Dies wird durch eine wissensgrenzenbewusste Belohnung erreicht, die das Wissen des Modells dynamisch einschätzt, und eine zweistufige RL-Trainingsstrategie, die übermäßige Vorsicht verhindert.

reinforcement learning hallucinations AI safety LLM

RESEARCHarXiv CS.AI·4/13/2026

RAMP: Hybrid DRL for Online Learning of Numeric Action Models

RAMP schlägt eine neuartige Strategie vor, um numerische Planungs-Aktionsmodelle online durch Umweltinteraktionen zu lernen, indem es Deep Reinforcement Learning (DRL), Aktionsmodell-Lernen und Planung integriert. Dies erzeugt eine positive Rückkopplungsschleife, in der die RL-Strategie Daten sammelt, um das Aktionsmodell zu verfeinern, während der Planer Pläne generiert, um die RL-Strategie weiter zu trainieren.

Deep Reinforcement Learning Action Model Learning Numeric Planning reinforcement learning

RESEARCHarXiv CS.LG·4/14/2026

Belief-State RWKV for Reinforcement Learning under Partial Observability

Diese Arbeit schlägt Belief-State RWKV vor, eine stärkere RL-Formulierung, bei der der rekurrente Zustand explizit als Glaubenszustand interpretiert wird. Die Methode pflegt einen kompakten, unsicherheitsbewussten Zustand, der es Richtlinien ermöglicht, sich in teilweise beobachtbaren Umgebungen sowohl auf Gedächtnis als auch auf Vertrauen zu stützen.

Belief State RWKV Partial Observability reinforcement learning

RESEARCHarXiv CS.LG·4/14/2026

A Comparative Theoretical Analysis of Entropy Control Methods in Reinforcement Learning

Diese Arbeit bietet eine vergleichende theoretische Analyse von Entropie-Kontrollstrategien im Reinforcement Learning, die traditionelle Regularisierung mit einem neuartigen kovarianzbasierten Mechanismus für das LLM-Training vergleicht. Sie zeigt, dass kovarianzbasierte Methoden durch selektive Regularisierung hochkovarianter Tokens asymptotische Unvoreingenommenheit erreichen, im Gegensatz zu traditionellen Methoden, die eine persistente Verzerrung einführen.

Entropy Control Policy Entropy LLMs reinforcement learning

RESEARCHarXiv CS.LG·4/9/2026

RAGEN-2: Reasoning Collapse in Agentic RL

Este estudo introduz o conceito de 'colapso de template', uma falha em agentes LLM de múltiplas interações onde a resposta se torna agnóstica à entrada, mesmo com entropia estável. Propõe a Informação Mútua (MI) como uma métrica superior à entropia para diagnosticar a qualidade do raciocínio, correlacionando-se mais fortemente com o desempenho final.

LLMs reinforcement learning Reasoning Evaluation Metrics

RESEARCHarXiv CS.CL·4/27/2026

Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning

Diese Arbeit untersucht, ob Ergebnisbelohnungen beim Reinforcement Learning für Chain-of-Thought-Reasoning eine überprüfbare oder kausal wichtige Argumentation in LLMs garantieren. Unter Einführung der Metriken CIR und SR stellen die Autoren fest, dass RLVR zwar die Genauigkeit verbessert, aber CIR oder SR nicht zuverlässig steigert, und eine geringe Menge SFT dies beheben kann.

reinforcement learning AI training Large Language Models (LLMs)Model Evaluation

RESEARCHarXiv CS.AI·5/9/2026

From History to State: Constant-Context Skill Learning for LLM Agents

Dieses Papier schlägt konstantes Kontext-Fähigkeitslernen vor, einen neuartigen Rahmen für LLM-Agenten, um wiederkehrende Workflows effizienter zu verwalten. Es begegnet Herausforderungen in Bezug auf Datenschutz, Kosten und Fähigkeiten, indem wiederverwendbare Prozeduren in Aufgabenfamilienmodulen gelernt und die Inferenz an einen kompakten Zustandsblock geknüpft wird. Die Wirksamkeit wird auf Benchmarks wie ALFWorld, WebShop und SciWorld demonstriert.

LLM Agents reinforcement learning Skill Learning AI Research

RESEARCHarXiv CS.CL·4/27/2026

Incentivizing Neuro-symbolic Language-based Reasoning in VLMs via Reinforcement Learning

Diese Arbeit untersucht neuro-symbolisches Sprach-Reasoning in VLMs, wobei Reinforcement Learning zur Verbesserung analytischer Fähigkeiten und Effizienz eingesetzt wird. Sie erzielte eine Genauigkeitssteigerung von 3,33% auf einem Vision-Language-Datensatz und reduzierte die Reasoning-Token um 75%.

Vision-Language Models reinforcement learning Reasoning Neuro-symbolic AI

RESEARCHarXiv CS.CL·4/8/2026

Document Optimization for Black-Box Retrieval via Reinforcement Learning

Este artigo de pesquisa propõe uma nova abordagem para otimização de documentos, transformando-os para melhor alinhamento com sistemas de recuperação via Reinforcement Learning (GRPO), utilizando melhorias de ranking como recompensa. O método, aplicável a retrievers de caixa preta, demonstrou ganhos em tarefas de recuperação de código e documentos visuais.

language models Vision-Language Models reinforcement learning document optimization

RESEARCHarXiv CS.LG·4/9/2026

Probabilistic Language Tries: A Unified Framework for Compression, Decision Policies, and Execution Reuse

Este artigo apresenta Probabilistic Language Tries (PLTs), uma representação unificada que explicita a estrutura de prefixo de qualquer modelo generativo sobre sequências. PLTs atuam como compressor lossless ideal, representação de política para problemas de decisão sequencial (como jogos e robótica) e índice de memoização para reuso de execução, com um teorema chave sobre caching guiado por prior.

sequence generation reinforcement learning data compression Probabilistic Models

RESEARCHarXiv CS.AI·5/4/2026

TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization

TUR-DPO ist eine neue, topologie- und unsicherheitsbewusste Variante der Direkten Präferenzoptimierung (DPO), die darauf abzielt, große Sprachmodelle (LLMs) besser an menschliche Präferenzen anzupassen. Sie berücksichtigt Begründungstopologien und Unsicherheitssignale, um nicht nur das Gesagte, sondern auch die Art der Antwortableitung zu bewerten.

reinforcement learning DPO AI alignment machine learning

RESEARCHarXiv CS.AI·5/7/2026

Regularized Centered Emphatic Temporal Difference Learning

Dieses Papier stellt das Regularisierte Emphatische Temporal-Differenz-Lernen (RETD) vor, um den Kompromiss zwischen Stabilität, Projektionsgeometrie und Varianz beim Off-Policy-Temporal-Differenz-Lernen zu behandeln. Es schlägt eine Methode vor, die die Hilfszentrierungsrekursion regularisiert, um die positive Definitheit der ETD-Schlüsselmatrix zu erhalten, und beweist deren Konvergenz.

reinforcement learning learning temporal-difference learning algorithm

RESEARCHarXiv CS.CL·5/7/2026

Adapt to Thrive! Adaptive Power-Mean Policy Optimization for Improved LLM Reasoning

Diese Forschung stellt Adaptive Power-Mean Policy Optimization (APMPO) vor, um die Schlussfolgerungsfähigkeiten von Großen Sprachmodellen (LLMs) mittels RLVR zu verbessern. APMPO kombiniert ein verallgemeinertes Potenzmittel-Ziel und adaptives Clipping, um die Lerndynamik und Leistung zu optimieren.

Policy optimization LLMs reinforcement learning machine learning

RESEARCHarXiv CS.LG·vor 22T

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

Diese Forschung befasst sich mit dem Problem der schlechten Kreditzuweisung im Reinforcement Learning für mehrstufiges Denken mit großen Sprachmodellen, verursacht durch spärliche Endbelohnungen, die zu hoher Gradientenvarianz und instabilem Training führen. Sie schlägt einen kontrafaktischen Vergleichs-basierten Kreditzuweisungsrahmen und die Implizite Verhaltensrichtlinienoptimierung (IBPO) vor, um schrittsensitive Lernsignale zu erzeugen, was die Trainingsstabilität und Leistung erheblich verbessert.

reinforcement learning AI training Machine learning research large language models

RESEARCHarXiv CS.LG·vor 8T

World Models: A Comprehensive Survey of Architectures, Methodologies, Reasoning Paradigms, and Applications

Diese Umfrage befasst sich mit dem Mangel an einem einheitlichen Rahmen für Weltmodelle, interne Simulatoren, die in der KI zur Vorhersage, Planung und Argumentation eingesetzt werden. Sie schlägt eine mehrachsige Taxonomie vor, die deren vielfältige Aspekte wie Architektur, Methodologie, Denkparadigmen und Anwendungen in Bereichen wie Reinforcement Learning und Robotik organisiert.

Survey AGI reinforcement learning World Models

RESEARCHarXiv CS.LG·vor 8T

From Demonstrations to Rewards: Test-Time Prompt Optimization for VLM Reward Models

Forscher schlagen Demo2Reward vor, eine Testzeit-Anpassungstechnik zur Optimierung von Vision-Sprachmodell (VLM)-Belohnungsmodellen in der Robotik. Sie verwendet wenige Demonstrationen, um Fehlalarme zu reduzieren und gleichzeitig Echt-Positive zu erhalten, ohne zusätzliches Modelltraining zu erfordern.

Vision-Language Models reinforcement learning Prompt Optimization robotics

RESEARCHarXiv CS.LG·vor 26T

Beyond Mode-Seeking RL: Trajectory-Balance Post-Training for Diffusion Language Models

Dieses Papier stellt TraFL vor, einen neuartigen Nach-Trainings-Ansatz für Diffusionssprachmodelle, der das "Trajektoriensperren" bei belohnungsmaximierenden Methoden adressiert. TraFL, ein Trajektorien-Balance-Ziel, übertrifft andere Methoden in Benchmarks für mathematisches Denken und Codegenerierung.

Diffusion Models language models reinforcement learning machine learning

RESEARCHarXiv CS.LG·vor 29T

Distributional Reinforcement Learning via the Cram\'er Distance

Dieser Artikel stellt den C-DSAC-Algorithmus vor, der Soft Actor-Critic im Bereich des verteilten Reinforcement Learnings anwendet und die Cramér-Distanz minimiert. Empirische Ergebnisse zeigen, dass C-DSAC bestehende Methoden übertrifft, insbesondere in komplexen Umgebungen, was auf seine vertrauensbasierten Q-Wert-Updates zurückzuführen ist.

deep learning reinforcement learning learning Algorithms