reinforcement learning

153 items

RESEARCHarXiv CS.AI·vor 14T

Quantum Frog: Emergent Cooperation and Difficulty Scaling in a Quantized-Time Cooperative Game

Dieses Paper stellt "Quantum Frog" vor, ein kooperatives Zwei-Spieler-Spiel mit neuartiger quantisierter Zeitmechanik, inspiriert von Frogger. Es nutzt Reinforcement Learning, um die Schwierigkeitsskalierung des Spiels, optimale Strategien und emergente Kooperationsstrategien zu analysieren.

reinforcement learning multi-agent systems game theory Cooperative AI

RESEARCHarXiv CS.AI·vor 8T

Uncertainty-Aware and Temporally Regulated Expert Advice in Reinforcement Learning for Autonomous Driving

Dieses Papier schlägt ein unsicherheitsbewusstes Framework für Reinforcement Learning im autonomen Fahren vor, das Expertenratschläge zur sicheren Steuerung der Exploration nutzt und langfristige Abhängigkeiten vermeidet. Es verwendet adaptive Schwellenwerte für die Ratgeberauslösung und eine Commitment-Cooldown-Strategie zur Regulierung der Anleitung, wodurch eine verbesserte Leistung in CARLA-Simulationen gezeigt wird.

reinforcement learning autonomous driving Exploration uncertainty

RESEARCHarXiv CS.AI·vor 15T

NeuroNL2LTL: A Neurosymbolic Framework for Natural Language Translation of Linear Temporal Logic

NeuroNL2LTL ist eine neurosymbolische Architektur, die gelernte Übersetzung mit formaler Verifikation vereint, um natürliche Sprache in Lineare Temporale Logik zu übersetzen. Sie nutzt ein Training mit Verifizierer im Regelkreis, bei dem Verifikationsergebnisse als Belohnungssignale für Verstärkungslernen dienen, um die formale Korrektheit zu optimieren.

reinforcement learning Neurosymbolic AI Formal verification Natural Language Processing

RESEARCHDEV.to AI·5/3/2026

R1-Searcher: Incentivizing the Search Capability in LLMs via ReinforcementLearning

Der Artikel behandelt die Verbesserung der Suchfähigkeit in Large Language Models (LLMs) durch die Anwendung von Reinforcement Learning. Er schlägt eine Methode vor, um Suchverhalten in LLMs zu incentivieren.

LLMs reinforcement learning machine learning search

RESEARCHDEV.to AI·4/21/2026

Multi-Objective Deep Reinforcement Learning

Dieser Inhalt befasst sich mit dem Bereich des Multi-Objective Deep Reinforcement Learning. Er behandelt wahrscheinlich Techniken zum Trainieren von KI-Agenten, um mehrere Leistungskriterien gleichzeitig zu optimieren.

Optimization deep learning reinforcement learning

RESEARCHarXiv CS.LG·4/30/2026

A Survey of Multi-Agent Deep Reinforcement Learning with Graph Neural Network-Based Communication

Diese Studie untersucht die GNN-basierte Kommunikation im Multi-Agenten-Reinforcement-Learning (MARL) und stellt das Fehlen einer expliziten Struktur fest. Sie schlägt einen verallgemeinerten GNN-basierten Kommunikationsprozess vor, um die zugrunde liegenden Konzepte klarer und zugänglicher zu machen.

reinforcement learning Graph Neural Networks multi-agent systems

RESEARCHarXiv CS.LG·5/6/2026

Delay, Plateau, or Collapse: Evaluating the Impact of Systematic Verification Error on RLVR

Diese Arbeit untersucht die Auswirkungen systematischer Verifikationsfehler auf das Reinforcement Learning mit verifizierbaren Belohnungen (RLVR), eine Methode zur Verbesserung der Denkfähigkeiten großer Sprachmodelle. Im Gegensatz zu früheren Analysen, die Fehler als zufällig betrachteten, zeigt diese Studie, dass systematische Fehler Modelle dazu bringen können, unerwünschtes Verhalten zu lernen. Experimente an arithmetischen Aufgaben zeigen, dass systematische falsch-negative Ergebnisse ähnliche Effekte wie zufälliges Rauschen haben, während systematische falsch-positive Ergebnisse komplexere Auswirkungen haben können.

reinforcement learning AI Errors Verification large language models

RESEARCHarXiv CS.LG·5/6/2026

Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning

Diese Übersicht bietet eine optimierer-agnostische Sicht auf Rollout-Strategien für das RL-basierte Nachtraining von Reasoning-LLMs. Sie formalisiert Rollout-Pipelines mit einer einheitlichen Notation und führt die Generate-Filter-Control-Replay (GFCR) Lebenszyklus-Taxonomie ein, die Pipelines in vier modulare Phasen zerlegt.

Rollout Strategies reinforcement learning machine learning AI Research

RESEARCHarXiv CS.CL·vor 28T

AIPO: : Learning to Reason from Active Interaction

AIPO ist ein neuartiger Reinforcement-Learning-Framework, der das LLM-Reasoning durch aktive Multi-Agenten-Interaktion während der Exploration verbessert. Es adressiert die Einschränkungen bestehender RL-Algorithmen, die durch die inhärente Fähigkeitsgrenze des Policy-Modells begrenzt sind und auf ineffiziente Trajektorienführung angewiesen sind.

LLMs reinforcement learning learning AI Reasoning

ARTICLETogether AI Blog·4/24/2026

Accelerate RL rollouts by up to 50% with distribution-aware speculative decoding

DAS (verteilungsbewusste spekulative Dekodierung) behebt den Rollout-Engpass im RL-Nachtraining. Es beschleunigt Rollouts um bis zu 50 % ohne Einbußen bei der Belohnungsqualität.

Optimization AI acceleration reinforcement learning machine learning

RESEARCHarXiv CS.LG·4/6/2026

Prism: Policy Reuse via Interpretable Strategy Mapping in Reinforcement Learning

O artigo apresenta PRISM, uma estrutura para Reinforcement Learning que fundamenta as decisões de agentes em conceitos discretos e causalmente validados, usando-os como interface de transferência zero-shot. Ele demonstra que esses conceitos impulsionam diretamente o comportamento do agente e que a importância de um conceito pode ser dissociada de sua frequência de uso.

Strategy Mapping reinforcement learning Transfer Learning interpretability

RESEARCHarXiv CS.CL·4/6/2026

Reinforcement Learning-based Knowledge Distillation with LLM-as-a-Judge

Este artigo propõe uma estrutura de Reinforcement Learning (RL) que utiliza um LLM como juiz para gerar recompensas, permitindo a destilação de conhecimento sem a necessidade de rótulos de verdade fundamental. A abordagem demonstra ganhos substanciais de desempenho em benchmarks de raciocínio matemático, sugerindo que avaliadores baseados em LLM podem produzir sinais de treinamento eficazes.

language models Unlabeled Data Knowledge Distillation Math Reasoning

RESEARCHarXiv CS.LG·4/6/2026

Contextual Intelligence The Next Leap for Reinforcement Learning

O texto aborda as limitações de generalização do Reinforcement Learning (RL), onde políticas aprendidas falham fora da distribuição de treinamento. Propõe uma nova taxonomia de contextos (alógenos e autógenos) e identifica direções de pesquisa cruciais para desenvolver uma verdadeira inteligência contextual.

Generalization Contextual Intelligence reinforcement learning Taxonomy

RESEARCHarXiv CS.LG·4/6/2026

LLM Reasoning with Process Rewards for Outcome-Guided Steps

Este conteúdo apresenta o PROGRS, um framework para melhorar o raciocínio matemático em LLMs, combinando modelos de recompensa de processo (PRMs) com a priorização da correção do resultado final. Ele busca resolver o problema de PRMs que podem recompensar raciocínios intermediários fluentes, mas que levam a respostas incorretas, otimizando o aprendizado com feedback mais alinhado.

mathematical reasoning Process Rewards reinforcement learning AI

RESEARCHarXiv CS.AI·vor 19T

OSCToM: RL-Guided Adversarial Generation for High-Order Theory of Mind

Dieses Papier stellt OSCToM vor, einen Ansatz zur Modellierung verschachtelter Glaubenskonflikte in LLM-basierten Theory of Mind-Aufgaben. Es kombiniert Reinforcement Learning und Kompositions-Surrogatmodelle, um diese Konflikte zu generieren, wobei OSCToM-8B in Experimenten die besten Ergebnisse erzielte.

LLMs reinforcement learning AI Research Theory of Mind

RESEARCHarXiv CS.AI·vor 19T

SOLAR: A Self-Optimizing Open-Ended Autonomous Agent for Lifelong Learning and Continual Adaptation

SOLAR ist ein autonomer KI-Agent, der entwickelt wurde, um die Herausforderungen großer Sprachmodelle in dynamischen Umgebungen zu überwinden, indem er lebenslanges Lernen und kontinuierliche Anpassung ermöglicht. Er nutzt Meta-Learning auf Parameterebene und mehrstufiges Reinforcement Learning, um sich selbst zu verbessern und Anpassungsstrategien zu entdecken.

Meta-Learning reinforcement learning learning Lifelong Learning

RESEARCHarXiv CS.AI·vor 19T

Mahjax: A GPU-Accelerated Mahjong Simulator for Reinforcement Learning in JAX

Mahjax ist eine neue, vollständig vektorisierte Riichi Mahjong-Umgebung, implementiert in JAX, die eine großflächige Rollout-Parallelisierung auf GPUs für die Forschung im Bereich des Reinforcement Learnings ermöglicht. Sie erleichtert das Tabula-rasa-Lernen und enthält ein hochwertiges Visualisierungstool zur Fehlerbehebung und Interaktion mit trainierten Agenten.

reinforcement learning learning GPU Mahjong

RESEARCHHugging Face Blog·4/16/2026

Ecom-RLVE: Adaptive Verifiable Environments for E-Commerce Conversational Agents

Diese Forschung stellt Ecom-RLVE vor, ein Framework, das darauf abzielt, adaptive und überprüfbare Umgebungen für Konversationsagenten im E-Commerce zu schaffen. Es konzentriert sich auf die Entwicklung robuster und zuverlässiger KI-Systeme für Online-Shopping-Interaktionen.

reinforcement learning adaptive systems verifiable AI e-commerce

RESEARCHDEV.to AI·4/21/2026

Learning to be Safe: Deep RL with a Safety Critic

Dieser Inhalt untersucht einen neuartigen Ansatz für Deep Reinforcement Learning durch die Integration eines "Sicherheitskritikers" zur Vermeidung unsicherer Aktionen. Die Methodik zielt darauf ab, die Zuverlässigkeit und Robustheit von KI-Agenten zu verbessern, wodurch sie für den Einsatz in der realen Welt geeignet werden, wo Sicherheit von entscheidender Bedeutung ist.

deep learning reinforcement learning security machine learning

RESEARCHTogether AI Blog·3/31/2026

Aurora

Aurora ist ein Open-Source-RL-Framework, das entwickelt wurde, um spekulatives Dekodieren selbst zu verbessern, indem es von jeder bedienten Anfrage lernt. Es erzielt eine 1,25-fache Leistungssteigerung gegenüber gut trainierten statischen Spekulatoren.

Open Source AI Framework reinforcement learning Performance Improvement