← heapsort-ai

reinforcement learning

153 items

RESEARCHarXiv CS.AI·vor 8T

Uncertainty-Aware and Temporally Regulated Expert Advice in Reinforcement Learning for Autonomous Driving

Dieses Papier schlägt ein unsicherheitsbewusstes Framework für Reinforcement Learning im autonomen Fahren vor, das Expertenratschläge zur sicheren Steuerung der Exploration nutzt und langfristige Abhängigkeiten vermeidet. Es verwendet adaptive Schwellenwerte für die Ratgeberauslösung und eine Commitment-Cooldown-Strategie zur Regulierung der Anleitung, wodurch eine verbesserte Leistung in CARLA-Simulationen gezeigt wird.

27
RESEARCHarXiv CS.AI·vor 15T

NeuroNL2LTL: A Neurosymbolic Framework for Natural Language Translation of Linear Temporal Logic

NeuroNL2LTL ist eine neurosymbolische Architektur, die gelernte Übersetzung mit formaler Verifikation vereint, um natürliche Sprache in Lineare Temporale Logik zu übersetzen. Sie nutzt ein Training mit Verifizierer im Regelkreis, bei dem Verifikationsergebnisse als Belohnungssignale für Verstärkungslernen dienen, um die formale Korrektheit zu optimieren.

27
RESEARCHarXiv CS.LG·5/6/2026

Delay, Plateau, or Collapse: Evaluating the Impact of Systematic Verification Error on RLVR

Diese Arbeit untersucht die Auswirkungen systematischer Verifikationsfehler auf das Reinforcement Learning mit verifizierbaren Belohnungen (RLVR), eine Methode zur Verbesserung der Denkfähigkeiten großer Sprachmodelle. Im Gegensatz zu früheren Analysen, die Fehler als zufällig betrachteten, zeigt diese Studie, dass systematische Fehler Modelle dazu bringen können, unerwünschtes Verhalten zu lernen. Experimente an arithmetischen Aufgaben zeigen, dass systematische falsch-negative Ergebnisse ähnliche Effekte wie zufälliges Rauschen haben, während systematische falsch-positive Ergebnisse komplexere Auswirkungen haben können.

27
RESEARCHarXiv CS.LG·5/6/2026

Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning

Diese Übersicht bietet eine optimierer-agnostische Sicht auf Rollout-Strategien für das RL-basierte Nachtraining von Reasoning-LLMs. Sie formalisiert Rollout-Pipelines mit einer einheitlichen Notation und führt die Generate-Filter-Control-Replay (GFCR) Lebenszyklus-Taxonomie ein, die Pipelines in vier modulare Phasen zerlegt.

27
RESEARCHarXiv CS.LG·4/6/2026

Prism: Policy Reuse via Interpretable Strategy Mapping in Reinforcement Learning

O artigo apresenta PRISM, uma estrutura para Reinforcement Learning que fundamenta as decisões de agentes em conceitos discretos e causalmente validados, usando-os como interface de transferência zero-shot. Ele demonstra que esses conceitos impulsionam diretamente o comportamento do agente e que a importância de um conceito pode ser dissociada de sua frequência de uso.

27
RESEARCHarXiv CS.CL·4/6/2026

Reinforcement Learning-based Knowledge Distillation with LLM-as-a-Judge

Este artigo propõe uma estrutura de Reinforcement Learning (RL) que utiliza um LLM como juiz para gerar recompensas, permitindo a destilação de conhecimento sem a necessidade de rótulos de verdade fundamental. A abordagem demonstra ganhos substanciais de desempenho em benchmarks de raciocínio matemático, sugerindo que avaliadores baseados em LLM podem produzir sinais de treinamento eficazes.

27
RESEARCHarXiv CS.LG·4/6/2026

LLM Reasoning with Process Rewards for Outcome-Guided Steps

Este conteúdo apresenta o PROGRS, um framework para melhorar o raciocínio matemático em LLMs, combinando modelos de recompensa de processo (PRMs) com a priorização da correção do resultado final. Ele busca resolver o problema de PRMs que podem recompensar raciocínios intermediários fluentes, mas que levam a respostas incorretas, otimizando o aprendizado com feedback mais alinhado.

27
RESEARCHarXiv CS.AI·vor 19T

SOLAR: A Self-Optimizing Open-Ended Autonomous Agent for Lifelong Learning and Continual Adaptation

SOLAR ist ein autonomer KI-Agent, der entwickelt wurde, um die Herausforderungen großer Sprachmodelle in dynamischen Umgebungen zu überwinden, indem er lebenslanges Lernen und kontinuierliche Anpassung ermöglicht. Er nutzt Meta-Learning auf Parameterebene und mehrstufiges Reinforcement Learning, um sich selbst zu verbessern und Anpassungsstrategien zu entdecken.

27
RESEARCHarXiv CS.AI·vor 19T

Mahjax: A GPU-Accelerated Mahjong Simulator for Reinforcement Learning in JAX

Mahjax ist eine neue, vollständig vektorisierte Riichi Mahjong-Umgebung, implementiert in JAX, die eine großflächige Rollout-Parallelisierung auf GPUs für die Forschung im Bereich des Reinforcement Learnings ermöglicht. Sie erleichtert das Tabula-rasa-Lernen und enthält ein hochwertiges Visualisierungstool zur Fehlerbehebung und Interaktion mit trainierten Agenten.

27
RESEARCHDEV.to AI·4/21/2026

Learning to be Safe: Deep RL with a Safety Critic

Dieser Inhalt untersucht einen neuartigen Ansatz für Deep Reinforcement Learning durch die Integration eines "Sicherheitskritikers" zur Vermeidung unsicherer Aktionen. Die Methodik zielt darauf ab, die Zuverlässigkeit und Robustheit von KI-Agenten zu verbessern, wodurch sie für den Einsatz in der realen Welt geeignet werden, wo Sicherheit von entscheidender Bedeutung ist.

27