← heapsort-ai

reinforcement learning

153 items

RESEARCHarXiv CS.AI·4/15/2026

When to Forget: A Memory Governance Primitive

Dieses Papier stellt Memory Worth (MW) als neue Metrik zur Steuerung der Speicherqualität in Agentensystemen vor, um zu entscheiden, welchen Erinnerungen zu vertrauen, welche zu unterdrücken oder welche zu verwerfen sind. MW nutzt ein Zwei-Zähler-System pro Speicher, das Kookkurrenzen mit erfolgreichen und fehlgeschlagenen Ergebnissen verfolgt und zur bedingten Erfolgswahrscheinlichkeit einer Aufgabe konvergiert.

27
RESEARCHarXiv CS.LG·4/28/2026

KARL: Mitigating Hallucinations in LLMs via Knowledge-Boundary-Aware Reinforcement Learning

KARL ist ein neuartiges Framework, das entwickelt wurde, um Halluzinationen in großen Sprachmodellen zu mindern, indem es ihnen ermöglicht, Fragen außerhalb ihres Wissensbereichs angemessen zu verweigern. Dies wird durch eine wissensgrenzenbewusste Belohnung erreicht, die das Wissen des Modells dynamisch einschätzt, und eine zweistufige RL-Trainingsstrategie, die übermäßige Vorsicht verhindert.

27
RESEARCHarXiv CS.AI·4/13/2026

RAMP: Hybrid DRL for Online Learning of Numeric Action Models

RAMP schlägt eine neuartige Strategie vor, um numerische Planungs-Aktionsmodelle online durch Umweltinteraktionen zu lernen, indem es Deep Reinforcement Learning (DRL), Aktionsmodell-Lernen und Planung integriert. Dies erzeugt eine positive Rückkopplungsschleife, in der die RL-Strategie Daten sammelt, um das Aktionsmodell zu verfeinern, während der Planer Pläne generiert, um die RL-Strategie weiter zu trainieren.

27
RESEARCHarXiv CS.LG·4/14/2026

Belief-State RWKV for Reinforcement Learning under Partial Observability

Diese Arbeit schlägt Belief-State RWKV vor, eine stärkere RL-Formulierung, bei der der rekurrente Zustand explizit als Glaubenszustand interpretiert wird. Die Methode pflegt einen kompakten, unsicherheitsbewussten Zustand, der es Richtlinien ermöglicht, sich in teilweise beobachtbaren Umgebungen sowohl auf Gedächtnis als auch auf Vertrauen zu stützen.

27
RESEARCHarXiv CS.LG·4/14/2026

A Comparative Theoretical Analysis of Entropy Control Methods in Reinforcement Learning

Diese Arbeit bietet eine vergleichende theoretische Analyse von Entropie-Kontrollstrategien im Reinforcement Learning, die traditionelle Regularisierung mit einem neuartigen kovarianzbasierten Mechanismus für das LLM-Training vergleicht. Sie zeigt, dass kovarianzbasierte Methoden durch selektive Regularisierung hochkovarianter Tokens asymptotische Unvoreingenommenheit erreichen, im Gegensatz zu traditionellen Methoden, die eine persistente Verzerrung einführen.

27
RESEARCHarXiv CS.LG·4/9/2026

RAGEN-2: Reasoning Collapse in Agentic RL

Este estudo introduz o conceito de 'colapso de template', uma falha em agentes LLM de múltiplas interações onde a resposta se torna agnóstica à entrada, mesmo com entropia estável. Propõe a Informação Mútua (MI) como uma métrica superior à entropia para diagnosticar a qualidade do raciocínio, correlacionando-se mais fortemente com o desempenho final.

27
RESEARCHarXiv CS.CL·4/27/2026

Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning

Diese Arbeit untersucht, ob Ergebnisbelohnungen beim Reinforcement Learning für Chain-of-Thought-Reasoning eine überprüfbare oder kausal wichtige Argumentation in LLMs garantieren. Unter Einführung der Metriken CIR und SR stellen die Autoren fest, dass RLVR zwar die Genauigkeit verbessert, aber CIR oder SR nicht zuverlässig steigert, und eine geringe Menge SFT dies beheben kann.

27
RESEARCHarXiv CS.AI·5/9/2026

From History to State: Constant-Context Skill Learning for LLM Agents

Dieses Papier schlägt konstantes Kontext-Fähigkeitslernen vor, einen neuartigen Rahmen für LLM-Agenten, um wiederkehrende Workflows effizienter zu verwalten. Es begegnet Herausforderungen in Bezug auf Datenschutz, Kosten und Fähigkeiten, indem wiederverwendbare Prozeduren in Aufgabenfamilienmodulen gelernt und die Inferenz an einen kompakten Zustandsblock geknüpft wird. Die Wirksamkeit wird auf Benchmarks wie ALFWorld, WebShop und SciWorld demonstriert.

27
RESEARCHarXiv CS.CL·4/8/2026

Document Optimization for Black-Box Retrieval via Reinforcement Learning

Este artigo de pesquisa propõe uma nova abordagem para otimização de documentos, transformando-os para melhor alinhamento com sistemas de recuperação via Reinforcement Learning (GRPO), utilizando melhorias de ranking como recompensa. O método, aplicável a retrievers de caixa preta, demonstrou ganhos em tarefas de recuperação de código e documentos visuais.

27
RESEARCHarXiv CS.LG·4/9/2026

Probabilistic Language Tries: A Unified Framework for Compression, Decision Policies, and Execution Reuse

Este artigo apresenta Probabilistic Language Tries (PLTs), uma representação unificada que explicita a estrutura de prefixo de qualquer modelo generativo sobre sequências. PLTs atuam como compressor lossless ideal, representação de política para problemas de decisão sequencial (como jogos e robótica) e índice de memoização para reuso de execução, com um teorema chave sobre caching guiado por prior.

27
RESEARCHarXiv CS.AI·5/4/2026

TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization

TUR-DPO ist eine neue, topologie- und unsicherheitsbewusste Variante der Direkten Präferenzoptimierung (DPO), die darauf abzielt, große Sprachmodelle (LLMs) besser an menschliche Präferenzen anzupassen. Sie berücksichtigt Begründungstopologien und Unsicherheitssignale, um nicht nur das Gesagte, sondern auch die Art der Antwortableitung zu bewerten.

27
RESEARCHarXiv CS.AI·5/7/2026

Regularized Centered Emphatic Temporal Difference Learning

Dieses Papier stellt das Regularisierte Emphatische Temporal-Differenz-Lernen (RETD) vor, um den Kompromiss zwischen Stabilität, Projektionsgeometrie und Varianz beim Off-Policy-Temporal-Differenz-Lernen zu behandeln. Es schlägt eine Methode vor, die die Hilfszentrierungsrekursion regularisiert, um die positive Definitheit der ETD-Schlüsselmatrix zu erhalten, und beweist deren Konvergenz.

27
RESEARCHarXiv CS.LG·vor 22T

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

Diese Forschung befasst sich mit dem Problem der schlechten Kreditzuweisung im Reinforcement Learning für mehrstufiges Denken mit großen Sprachmodellen, verursacht durch spärliche Endbelohnungen, die zu hoher Gradientenvarianz und instabilem Training führen. Sie schlägt einen kontrafaktischen Vergleichs-basierten Kreditzuweisungsrahmen und die Implizite Verhaltensrichtlinienoptimierung (IBPO) vor, um schrittsensitive Lernsignale zu erzeugen, was die Trainingsstabilität und Leistung erheblich verbessert.

27
RESEARCHarXiv CS.LG·vor 8T

World Models: A Comprehensive Survey of Architectures, Methodologies, Reasoning Paradigms, and Applications

Diese Umfrage befasst sich mit dem Mangel an einem einheitlichen Rahmen für Weltmodelle, interne Simulatoren, die in der KI zur Vorhersage, Planung und Argumentation eingesetzt werden. Sie schlägt eine mehrachsige Taxonomie vor, die deren vielfältige Aspekte wie Architektur, Methodologie, Denkparadigmen und Anwendungen in Bereichen wie Reinforcement Learning und Robotik organisiert.

27