reinforcement learning

153 items

ARTICLEDEV.to AI·vor 4T

Agent Lightning: Train ANY AI Agents with Reinforcement Learning

Agent Lightning ist ein Framework, das darauf ausgelegt ist, beliebige KI-Agenten mittels Reinforcement Learning zu trainieren. Es zielt darauf ab, den Prozess der Entwicklung und Optimierung intelligenter Agenten zu vereinfachen und zu beschleunigen.

reinforcement learning AI training machine learning AI agents

RESEARCHarXiv CS.LG·4/16/2026

Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation

Diese Arbeit präsentiert eine notwendige Bedingung für das Design von Intragruppen-Lernalgorithmen im Reinforcement Learning, die erfordert, dass Zielsetzungen die Gradienten-Austauschbarkeit über Token-Updates hinweg aufrechterhalten, um belohnungsirrelevanten Drift zu verhindern. Sie schlägt minimale Transformationen vor, um diese Aufhebungsstruktur wiederherzustellen, was das Training stabilisiert und die Stichprobeneffizienz verbessert.

reinforcement learning large language models gradient dynamics model optimization

RESEARCHarXiv CS.LG·4/16/2026

Adaptive Memory Crystallization for Autonomous AI Agent Learning in Dynamic Environments

Diese Forschung stellt Adaptive Memory Crystallization (AMC) vor, eine neuartige Speicherarchitektur für autonome KI-Agenten, um Erfahrungen in dynamischen Umgebungen schrittweise zu konsolidieren, ohne früheres Wissen zu vergessen. AMC modelliert das Gedächtnis als kontinuierlichen Kristallisationsprozess in einer dreiphasigen Hierarchie, inspiriert von der Theorie des synaptischen Tagging und Capture und gesteuert durch stochastische Differentialgleichungen.

reinforcement learning machine learning memory architecture AI agents

DOCAWS Machine Learning Blog·5/7/2026

Overcoming reward signal challenges: Verifiable rewards-based reinforcement learning with GRPO on SageMaker AI

Dieser Beitrag beschreibt die Implementierung von verifizierbarem belohnungsbasiertem Reinforcement Learning (RLVR), um die Trainingsleistung durch Transparenz und Korrektheit der Belohnungssignale zu verbessern. Er behandelt Techniken wie GRPO und Few-Shot-Beispiele, demonstriert am GSM8K-Datensatz zur Verbesserung der Genauigkeit bei der Lösung mathematischer Probleme.

Policy optimization reinforcement learning learning AI training

RESEARCHarXiv CS.LG·vor 17T

HealthCraft: A Reinforcement Learning Safety Environment for Emergency Medicine

Der Artikel stellt HealthCraft vor, eine öffentliche Reinforcement-Learning-Umgebung zur Bewertung der Sicherheit von Frontier-Sprachmodellen in der Notfallmedizin. Es konzentriert sich auf die Sicherheit auf Trajektorien-Ebene, den Missbrauch von Werkzeugen und den klinischen Druck, basiert auf einem FHIR R4 Weltzustand und bietet 195 Aufgaben für eine umfassende Bewertung.

LLMs evaluation reinforcement learning medical AI

RESEARCHarXiv CS.LG·4/6/2026

OPRIDE: Offline Preference-based Reinforcement Learning via In-Dataset Exploration

O artigo aborda a baixa eficiência de consulta em Aprendizado por Reforço Baseado em Preferências (PbRL) offline, propondo o algoritmo OPRIDE. Este algoritmo visa melhorar a eficiência de consulta através de uma estratégia de exploração informativa e um mecanismo de agendamento de desconto para mitigar a superotimização da função de recompensa.

reinforcement learning Query Efficiency Exploration Offline Learning

RESEARCHarXiv CS.LG·vor 27T

$\xi$-DPO: Direct Preference Optimization via Ratio Reward Margin

Dieses Papier stellt -DPO vor, eine direkte Präferenzoptimierung mittels Verhältnis-Belohnungsmarge, um die Herausforderung der Hyperparameter-Abstimmung in SimPO anzugehen. Die Forschung analysiert SimPO und reformuliert das Präferenzziel, um die Interpretierbarkeit über Datensätze mit unterschiedlichen Belohnungslückenstrukturen zu verbessern.

Preference Optimization deep learning reinforcement learning Hyperparameter Tuning

RESEARCHarXiv CS.LG·vor 20T

ReCrit: Transition-Aware Reinforcement Learning for Scientific Critic Reasoning

ReCrit ist ein neues Reinforcement-Learning-Framework, das entwickelt wurde, um die Leistung großer Sprachmodelle bei der wissenschaftlichen Kritikerinteraktion zu verbessern. Es befasst sich mit dem Problem, dass LLMs nach Benutzerkritik korrekte Lösungen aufgeben, indem es sich auf korrekte Übergänge zwischen den Runden konzentriert und Verhaltensweisen wie Korrektur, Sycophanie und Robustheit kategorisiert.

reinforcement learning learning Scientific Reasoning large language models

RESEARCHDEV.to AI·4/14/2026

Adaptive Neuro-Symbolic Planning for deep-sea exploration habitat design in hybrid quantum-classical pipelines

Ein für die Optimierung von Tiefseehabitaten entwickelter Reinforcement-Learning-Agent konnte kein physikalisch realisierbares Design erzeugen, was die Grenzen rein sub-symbolischer KI aufzeigt, wenn symbolische Beschränkungen nicht streng durchgesetzt werden. Diese Erfahrung führte zu einem Forschungsschwerpunkt auf adaptive neuro-symbolische Planung für missionskritische Designherausforderungen.

AI limitations Habitat Design reinforcement learning Deep-sea exploration

RESEARCHDEV.to AI·4/10/2026

Deep Reinforcement Learning for Sepsis Treatment

Este conteúdo aborda a aplicação de Aprendizado por Reforço Profundo para o tratamento de sepse, uma condição médica grave. Ele explora como técnicas avançadas de IA podem otimizar decisões terapêuticas em ambientes clínicos complexos.

Medical Treatment deep learning reinforcement learning Sepsis

RESEARCHarXiv CS.CL·4/21/2026

Reciprocal Co-Training (RCT): Coupling Gradient-Based and Non-Differentiable Models via Reinforcement Learning

Diese Arbeit stellt einen reziproken Co-Training-Framework vor, der ein LLM mit einem Random Forest-Klassifikator über Reinforcement Learning koppelt. Es schafft eine iterative Feedback-Schleife, in der jedes Modell durch Signale des anderen verbessert wird, und zeigt konsistente Leistungssteigerungen über medizinische Datensätze hinweg.

Random Forests LLMs reinforcement learning machine learning

RESEARCHarXiv CS.LG·4/23/2026

DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

DR-Venus stellt einen führenden 4B Deep Research Agent für Edge-Scale-Bereitstellung vor, der effektiv mit nur 10K offenen Daten trainiert wurde. Das Training erfolgt in zwei Stufen: Supervised Fine-Tuning für grundlegende Agentenfunktionen, gefolgt von Reinforcement Learning zur Verbesserung der Ausführungssicherheit bei komplexen Forschungsaufgaben.

Edge AI reinforcement learning machine learning training SLMs

ARTICLEDEV.to AI·4/23/2026

Explainable Causal Reinforcement Learning for smart agriculture microgrid orchestration with zero-trust governance guarantees

Dieser Artikel schildert die Erkenntnis eines Entwicklers, der einen Black-Box-Reinforcement-Learning-Agenten bei der Orchestrierung intelligenter landwirtschaftlicher Mikronetze debuggte. Die Einsicht, dass dem Agenten ein kausales Verständnis fehlte, führte zur Erforschung von Erklärbarer KI und kausalen Inferenz-Frameworks, um kaskadierende Stromausfälle zu verhindern.

smart agriculture microgrids reinforcement learning Explainable AI

RESEARCHarXiv CS.LG·4/6/2026

From Broad Exploration to Stable Synthesis: Entropy-Guided Optimization for Autoregressive Image Generation

O artigo analisa a interação entre Chain-of-Thought (CoT) e Reinforcement Learning (RL) na geração de imagens a partir de texto (T2I) usando uma análise sistemática baseada em entropia. Ele revela que menor entropia dos tokens de imagem e do CoT textual se correlaciona com melhor qualidade de imagem, propondo a estratégia Entropy-Guided Group Relative Policy Optimization (EG-GRPO) para otimização com base na incerteza.

Optimization deep learning reinforcement learning Text-to-Image Generation

RESEARCHDEV.to AI·4/9/2026

Human-Aligned Decision Transformers for deep-sea exploration habitat design under real-time policy constraints

Este conteúdo explora uma pesquisa sobre o design de sistemas de IA que tomam decisões complexas e sequenciais em ambientes extremos, como a exploração em alto-mar. A investigação focou em integrar preferências humanas no projeto de habitats através de Decision Transformers e aprendizagem por reforço.

decision-transformers reinforcement learning Deep-sea exploration human-aligned AI

RESEARCHarXiv CS.LG·vor 21T

A Structural Threshold in Decision Capacity Governs Collapse in Self-Play Reinforcement Learning

Diese Arbeit zeigt, dass eine Schwelle in der Entscheidungskapazität den Kollaps von Self-Play-Reinforcement-Learning-Agenten unter asymmetrischen Regelstörungen steuert. Die Eliminierung aller positive-reach kontingenten Entscheidungen führt zu einem schnellen Kollaps, während das Beibehalten einer einzigen solchen Entscheidung dies verhindert.

Decision Making reinforcement learning learning game theory

RESEARCHarXiv CS.LG·4/17/2026

Optimistic Policy Learning under Pessimistic Adversaries with Regret and Violation Guarantees

Diese Forschung befasst sich mit der Herausforderung der Entscheidungsfindung in Umgebungen mit strategischen Gegnern oder externen Faktoren, wo traditionelle Strategien in sicherheitskritischen Umfeldern katastrophal versagen können. Sie schlägt einen optimistischen Policy-Lernansatz vor, der darauf abzielt, diese Interaktionen zu berücksichtigen und Regret- sowie Verletzungsgarantien zu bieten.

reinforcement learning robust AI adversarial AI

RESEARCHarXiv CS.LG·4/8/2026

Territory Paint Wars: Diagnosing and Mitigating Failure Modes in Competitive Multi-Agent PPO

Este trabalho apresenta o ambiente Territory Paint Wars para investigar modos de falha do PPO em aprendizado por reforço multiagente competitivo. Ele identifica falhas de implementação que causam baixo desempenho e, após a correção, revela um novo problema de overfitting competitivo que prejudica a generalização.

failure modes reinforcement learning self-play PPO

RESEARCHarXiv CS.CL·4/23/2026

OThink-SRR1: Search, Refine and Reasoning with Reinforced Learning for Large Language Models

OThink-SRR1 ist ein Framework, das LLMs durch einen iterativen Such-, Verfeinerungs- und Denkprozess, der mittels Reinforcement Learning trainiert wird, verbessert. Es löst RAG-Herausforderungen, indem es relevante Fakten aus abgerufenen Dokumenten destilliert, um Effizienz und Genauigkeit bei komplexen Multi-Hop-QA zu steigern.

multi-hop-qa LLMs reinforcement learning RAG

RESEARCHarXiv CS.LG·4/23/2026

Rethinking Reinforcement Fine-Tuning in LVLM: Convergence, Reward Decomposition, and Generalization

Diese Forschung stellt den Tool-Augmented Markov Decision Process (TA-MDP) vor, um multimodale agentische Entscheidungsfindung formal zu modellieren und theoretische Lücken beim Reinforcement Fine-Tuning für Large Vision-Language Models (LVLMs) zu schließen. Sie untersucht, wie zusammengesetzte verifizierbare Belohnungen die GRPO-Konvergenz beeinflussen und warum das Training auf kleinen Datensätzen auf Out-of-Distribution-Domänen für agentische LVLMs übertragbar ist.

Theoretical AI reinforcement learning vision models large language models