← heapsort-ai

reinforcement learning

153 items

RESEARCHarXiv CS.LG·4/16/2026

Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation

Diese Arbeit präsentiert eine notwendige Bedingung für das Design von Intragruppen-Lernalgorithmen im Reinforcement Learning, die erfordert, dass Zielsetzungen die Gradienten-Austauschbarkeit über Token-Updates hinweg aufrechterhalten, um belohnungsirrelevanten Drift zu verhindern. Sie schlägt minimale Transformationen vor, um diese Aufhebungsstruktur wiederherzustellen, was das Training stabilisiert und die Stichprobeneffizienz verbessert.

29
RESEARCHarXiv CS.LG·4/16/2026

Adaptive Memory Crystallization for Autonomous AI Agent Learning in Dynamic Environments

Diese Forschung stellt Adaptive Memory Crystallization (AMC) vor, eine neuartige Speicherarchitektur für autonome KI-Agenten, um Erfahrungen in dynamischen Umgebungen schrittweise zu konsolidieren, ohne früheres Wissen zu vergessen. AMC modelliert das Gedächtnis als kontinuierlichen Kristallisationsprozess in einer dreiphasigen Hierarchie, inspiriert von der Theorie des synaptischen Tagging und Capture und gesteuert durch stochastische Differentialgleichungen.

29
DOCAWS Machine Learning Blog·5/7/2026

Overcoming reward signal challenges: Verifiable rewards-based reinforcement learning with GRPO on SageMaker AI

Dieser Beitrag beschreibt die Implementierung von verifizierbarem belohnungsbasiertem Reinforcement Learning (RLVR), um die Trainingsleistung durch Transparenz und Korrektheit der Belohnungssignale zu verbessern. Er behandelt Techniken wie GRPO und Few-Shot-Beispiele, demonstriert am GSM8K-Datensatz zur Verbesserung der Genauigkeit bei der Lösung mathematischer Probleme.

29
RESEARCHarXiv CS.LG·vor 17T

HealthCraft: A Reinforcement Learning Safety Environment for Emergency Medicine

Der Artikel stellt HealthCraft vor, eine öffentliche Reinforcement-Learning-Umgebung zur Bewertung der Sicherheit von Frontier-Sprachmodellen in der Notfallmedizin. Es konzentriert sich auf die Sicherheit auf Trajektorien-Ebene, den Missbrauch von Werkzeugen und den klinischen Druck, basiert auf einem FHIR R4 Weltzustand und bietet 195 Aufgaben für eine umfassende Bewertung.

29
RESEARCHarXiv CS.LG·4/6/2026

OPRIDE: Offline Preference-based Reinforcement Learning via In-Dataset Exploration

O artigo aborda a baixa eficiência de consulta em Aprendizado por Reforço Baseado em Preferências (PbRL) offline, propondo o algoritmo OPRIDE. Este algoritmo visa melhorar a eficiência de consulta através de uma estratégia de exploração informativa e um mecanismo de agendamento de desconto para mitigar a superotimização da função de recompensa.

29
RESEARCHarXiv CS.LG·vor 27T

$\xi$-DPO: Direct Preference Optimization via Ratio Reward Margin

Dieses Papier stellt -DPO vor, eine direkte Präferenzoptimierung mittels Verhältnis-Belohnungsmarge, um die Herausforderung der Hyperparameter-Abstimmung in SimPO anzugehen. Die Forschung analysiert SimPO und reformuliert das Präferenzziel, um die Interpretierbarkeit über Datensätze mit unterschiedlichen Belohnungslückenstrukturen zu verbessern.

29
RESEARCHarXiv CS.LG·vor 20T

ReCrit: Transition-Aware Reinforcement Learning for Scientific Critic Reasoning

ReCrit ist ein neues Reinforcement-Learning-Framework, das entwickelt wurde, um die Leistung großer Sprachmodelle bei der wissenschaftlichen Kritikerinteraktion zu verbessern. Es befasst sich mit dem Problem, dass LLMs nach Benutzerkritik korrekte Lösungen aufgeben, indem es sich auf korrekte Übergänge zwischen den Runden konzentriert und Verhaltensweisen wie Korrektur, Sycophanie und Robustheit kategorisiert.

29
RESEARCHDEV.to AI·4/14/2026

Adaptive Neuro-Symbolic Planning for deep-sea exploration habitat design in hybrid quantum-classical pipelines

Ein für die Optimierung von Tiefseehabitaten entwickelter Reinforcement-Learning-Agent konnte kein physikalisch realisierbares Design erzeugen, was die Grenzen rein sub-symbolischer KI aufzeigt, wenn symbolische Beschränkungen nicht streng durchgesetzt werden. Diese Erfahrung führte zu einem Forschungsschwerpunkt auf adaptive neuro-symbolische Planung für missionskritische Designherausforderungen.

28
RESEARCHarXiv CS.CL·4/21/2026

Reciprocal Co-Training (RCT): Coupling Gradient-Based and Non-Differentiable Models via Reinforcement Learning

Diese Arbeit stellt einen reziproken Co-Training-Framework vor, der ein LLM mit einem Random Forest-Klassifikator über Reinforcement Learning koppelt. Es schafft eine iterative Feedback-Schleife, in der jedes Modell durch Signale des anderen verbessert wird, und zeigt konsistente Leistungssteigerungen über medizinische Datensätze hinweg.

28
RESEARCHarXiv CS.LG·4/23/2026

DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

DR-Venus stellt einen führenden 4B Deep Research Agent für Edge-Scale-Bereitstellung vor, der effektiv mit nur 10K offenen Daten trainiert wurde. Das Training erfolgt in zwei Stufen: Supervised Fine-Tuning für grundlegende Agentenfunktionen, gefolgt von Reinforcement Learning zur Verbesserung der Ausführungssicherheit bei komplexen Forschungsaufgaben.

28
ARTICLEDEV.to AI·4/23/2026

Explainable Causal Reinforcement Learning for smart agriculture microgrid orchestration with zero-trust governance guarantees

Dieser Artikel schildert die Erkenntnis eines Entwicklers, der einen Black-Box-Reinforcement-Learning-Agenten bei der Orchestrierung intelligenter landwirtschaftlicher Mikronetze debuggte. Die Einsicht, dass dem Agenten ein kausales Verständnis fehlte, führte zur Erforschung von Erklärbarer KI und kausalen Inferenz-Frameworks, um kaskadierende Stromausfälle zu verhindern.

28
RESEARCHarXiv CS.LG·4/6/2026

From Broad Exploration to Stable Synthesis: Entropy-Guided Optimization for Autoregressive Image Generation

O artigo analisa a interação entre Chain-of-Thought (CoT) e Reinforcement Learning (RL) na geração de imagens a partir de texto (T2I) usando uma análise sistemática baseada em entropia. Ele revela que menor entropia dos tokens de imagem e do CoT textual se correlaciona com melhor qualidade de imagem, propondo a estratégia Entropy-Guided Group Relative Policy Optimization (EG-GRPO) para otimização com base na incerteza.

28
RESEARCHDEV.to AI·4/9/2026

Human-Aligned Decision Transformers for deep-sea exploration habitat design under real-time policy constraints

Este conteúdo explora uma pesquisa sobre o design de sistemas de IA que tomam decisões complexas e sequenciais em ambientes extremos, como a exploração em alto-mar. A investigação focou em integrar preferências humanas no projeto de habitats através de Decision Transformers e aprendizagem por reforço.

28
RESEARCHarXiv CS.LG·vor 21T

A Structural Threshold in Decision Capacity Governs Collapse in Self-Play Reinforcement Learning

Diese Arbeit zeigt, dass eine Schwelle in der Entscheidungskapazität den Kollaps von Self-Play-Reinforcement-Learning-Agenten unter asymmetrischen Regelstörungen steuert. Die Eliminierung aller positive-reach kontingenten Entscheidungen führt zu einem schnellen Kollaps, während das Beibehalten einer einzigen solchen Entscheidung dies verhindert.

28
RESEARCHarXiv CS.LG·4/17/2026

Optimistic Policy Learning under Pessimistic Adversaries with Regret and Violation Guarantees

Diese Forschung befasst sich mit der Herausforderung der Entscheidungsfindung in Umgebungen mit strategischen Gegnern oder externen Faktoren, wo traditionelle Strategien in sicherheitskritischen Umfeldern katastrophal versagen können. Sie schlägt einen optimistischen Policy-Lernansatz vor, der darauf abzielt, diese Interaktionen zu berücksichtigen und Regret- sowie Verletzungsgarantien zu bieten.

28
RESEARCHarXiv CS.LG·4/23/2026

Rethinking Reinforcement Fine-Tuning in LVLM: Convergence, Reward Decomposition, and Generalization

Diese Forschung stellt den Tool-Augmented Markov Decision Process (TA-MDP) vor, um multimodale agentische Entscheidungsfindung formal zu modellieren und theoretische Lücken beim Reinforcement Fine-Tuning für Large Vision-Language Models (LVLMs) zu schließen. Sie untersucht, wie zusammengesetzte verifizierbare Belohnungen die GRPO-Konvergenz beeinflussen und warum das Training auf kleinen Datensätzen auf Out-of-Distribution-Domänen für agentische LVLMs übertragbar ist.

28