reinforcement learning

153 items

RESEARCHarXiv CS.CL·vor 14T

RICE-PO: Turning Retrieval Interactions into Credit Signals for Reasoning Agents

RICE-PO ist ein neuer kritikfreier Rahmen zur Politikoptimierung, der die Herausforderung der Kreditzuweisung in interaktiven Sprachagenten löst. Er wandelt Abrufinteraktionen in lokalisierte Lernsignale um, indem er ausführbare Aktionen bewertet und Kredite an latente Denkprozesse weiterleitet.

Policy optimization reinforcement learning Retrieval systems AI agents

ARTICLEHugging Face Blog·vor 6T

Direct Preference Optimization Beyond Chatbots

Dieser Artikel untersucht die Direct Preference Optimization (DPO), eine Methode zur Anpassung von KI-Modellen an menschliche Präferenzen, und erforscht ihre potenziellen Anwendungen jenseits traditioneller Chatbots. Er befasst sich damit, wie DPO in verschiedenen KI-Bereichen eingesetzt werden kann.

language models reinforcement learning learning DPO

ARTICLEAnalytics Vidhya·vor 22T

Top 10 AI Research Papers of 2025

Die KI-Forschung im Jahr 2025 erlebte eine bedeutende Verlagerung von Chatbots hin zu Denk-, autonomen Agenten- und multimodalen Systemen. Unternehmen wie Google DeepMind und OpenAI trieben Fortschritte in Bereichen wie Codierungsagenten und skalierbaren Sicherheitssystemen voran.

multimodal AI reinforcement learning reasoning AI autonomous agents

RESEARCHDEV.to AI·vor 13T

Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillationand Agentic RL

Diese Forschung stellt Chain-of-Agents vor, ein End-to-End-Framework zur Entwicklung von Agenten-Grundlagenmodellen. Es nutzt Multi-Agenten-Destillation und agentisches Reinforcement Learning, um die Fähigkeiten von KI-Agenten zu verbessern.

AI models reinforcement learning machine learning Foundation Models

RESEARCHDEV.to AI·4/26/2026

RecoGym: A Reinforcement Learning Environment for the problem of ProductRecommendation in Online Advertising

RecoGym ist eine Reinforcement-Learning-Umgebung, die entwickelt wurde, um Probleme der Produktempfehlung in der Online-Werbung zu simulieren. Sie bietet Forschern und Praktikern eine Plattform zum Testen und Entwickeln neuer RL-Algorithmen für Empfehlungssysteme.

Online Advertising reinforcement learning machine learning Simulation Environment

RESEARCHarXiv CS.CL·4/20/2026

"Excuse me, may I say something..." CoLabScience, A Proactive AI Assistant for Biomedical Discovery and LLM-Expert Collaborations

CoLabScience wird als proaktiver LLM-Assistent vorgestellt, der die biomedizinische Entdeckung durch verbesserte Zusammenarbeit zwischen KI und menschlichen Experten beschleunigen soll. Es nutzt PULI, ein neuartiges Reinforcement-Learning-Framework für zeitnahe Interventionen, und führt zudem BSDD, einen neuen Benchmark-Datensatz für simulierte Forschungsdialoge, ein.

LLMs AI collaboration reinforcement learning datasets

RESEARCHDEV.to AI·5/7/2026

ReTool: Reinforcement Learning for Strategic Tool Use in LLMs

ReTool stellt ein neuartiges Reinforcement-Learning-Framework vor, das darauf abzielt, die strategischen Werkzeugnutzungsfähigkeiten großer Sprachmodelle zu verbessern. Dieser Ansatz soll optimieren, wie LLMs externe Werkzeuge auswählen und verwenden, um komplexe Aufgaben effektiver und effizienter zu lösen.

LLMs reinforcement learning machine learning tool use

RESEARCHDEV.to AI·vor 17T

The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

Diese Forschung untersucht den Entropiemechanismus des Reinforcement Learning, insbesondere dessen Anwendung zur Verbesserung der Denkfähigkeiten in Sprachmodellen. Es wird erforscht, wie Entropie genutzt werden kann, um den Lernprozess und die Entscheidungsfindung für ein robusteres Sprachmodell-Denken zu optimieren.

language models reinforcement learning learning Reasoning

RESEARCHDEV.to AI·4/12/2026

Explainable Causal Reinforcement Learning for wildfire evacuation logistics networks in carbon-negative infrastructure

Diese Forschung konzentriert sich auf die Überwindung der Einschränkungen standardmäßiger Reinforcement-Learning-Modelle bei der Optimierung von Evakuierungen bei Waldbränden. Der Verfasser wendet kausale Inferenz, inspiriert von Judea Pearl und Bernhard Schölkopf, an, um unerklärlichen Empfehlungen und Störvariablen zu begegnen.

wildfire evacuation reinforcement learning Explainable AI Causal Reinforcement Learning

ARTICLEDEV.to AI·5/7/2026

Meta-Optimized Continual Adaptation for circular manufacturing supply chains in carbon-negative infrastructure

Der Autor beschreibt einen entscheidenden Moment, in dem statische Optimierung, einschließlich Meta-Lernen, für dynamische Lieferketten der Kreislaufwirtschaft obsolet wurde und bei plötzlichen politischen Änderungen wie einer Kohlenstoffsteuer katastrophal versagte. Diese Erfahrung legte die grundlegende Begrenzung traditioneller Methoden bei der Anpassung an reale Komplexitäten offen.

Meta-Learning carbon-negative infrastructure reinforcement learning supply chain optimization

RESEARCHDEV.to AI·5/6/2026

Generative Simulation Benchmarking for deep-sea exploration habitat design during mission-critical recovery windows

Dieser Inhalt beschreibt die Reise eines Forschers bei der Nutzung generativer KI für das Design von Tiefsee-Explorationshabitaten. Nach einem anfänglichen Misserfolg begab er sich auf eine einjährige Studie, um Methoden zum Benchmarking generativer Modelle unter realen Bedingungen in extremen Umgebungen zu entwickeln.

reinforcement learning Benchmarking Deep-sea exploration simulation

RESEARCHDEV.to AI·4/21/2026

Explainable Causal Reinforcement Learning for satellite anomaly response operations under multi-jurisdictional compliance

Der Text behandelt die Notwendigkeit erklärbarer und kausaler KI für Raumfahrtoperationen, illustriert durch einen Satellitenvorfall, bei dem eine automatische Korrektur Datenschutzbestimmungen verletzte. Er hebt das Versagen traditioneller KI-Ansätze hervor, die Komplexität technischer Einschränkungen, operationeller Prioritäten und juristischer Grenzen zu bewältigen.

Anomaly Detection Aerospace AI reinforcement learning Explainable AI

RESEARCHDEV.to AI·5/1/2026

Deep Dyna-Q: Integrating Planning for Task-Completion Dialogue Policy Learning

Dieser Inhalt behandelt Deep Dyna-Q, einen Ansatz, der Planung in das Lernen von Dialogrichtlinien für aufgabenorientierte Dialogsysteme integriert. Das Ziel ist es, den Prozess der Aufgabenbewältigung durch dialogische Interaktion mit KI zu optimieren.

reinforcement learning Natural Language Processing AI algorithms dialogue systems

ARTICLEDEV.to AI·vor 14T

Human-Aligned Decision Transformers for bio-inspired soft robotics maintenance under real-time policy constraints

Ein persönlicher Bericht beschreibt den Kampf eines Forschers mit einem Decision Transformer, der bei der Wartung bio-inspirierter weicher Robotergreifer im realen Einsatz versagte, trotz hoher Simulationsleistung. Das entscheidende Problem war die Diskrepanz zwischen der gelernten Richtlinie der KI und den menschlichen Sicherheitserwartungen für die empfindliche Hardware.

decision-transformers reinforcement learning learning maintenance

DOCDEV.to AI·5/10/2026

Understanding Reinforcement Learning with Neural Networks Part 2: Why Backpropagation Is Not Enough

Dieser Artikel, Teil einer Reihe, erklärt, warum die Standard-Backpropagation für bestimmte Szenarien des Reinforcement Learning unzureichend ist. Er hebt die Notwendigkeit von Policy Gradients hervor, indem er demonstriert, wie die Fehlerberechnung und Ableitungsanwendung sich vom traditionellen Training neuronaler Netze unterscheiden.

neural networks reinforcement learning learning backpropagation

ARTICLEHugging Face Blog·5/6/2026

vLLM V0 to V1: Correctness Before Corrections in RL

Dieser Inhalt behandelt den Übergang von vLLM V0 zu V1, wobei der Schwerpunkt auf der Bedeutung der Korrektheit vor Korrekturen im Reinforcement Learning liegt. Er untersucht Entwicklungsprinzipien und Verbesserungen, um die Integrität und Leistung in KI-Systemen zu gewährleisten.

LLMs reinforcement learning machine learning AI development

RESEARCHDEV.to AI·vor 26T

Episodic Exploration for Deep Deterministic Policies: An Application toStarCraft Micromanagement Tasks

Diese Forschungsarbeit stellt episodische Erkundungstechniken vor, die auf tiefe deterministische Richtlinien angewendet werden. Sie konzentriert sich auf die Verbesserung der KI-Leistung bei komplexen StarCraft-Mikromanagement-Aufgaben.

Episodic Exploration deep learning reinforcement learning Game AI

ARTICLEDEV.to AI·4/16/2026

Policy Gradients — Deep Dive + Problem: Valid Parentheses

Policy Gradients ist ein fundamentaler Reinforcement Learning-Algorithmus, der die Policy (die Abbildung von Zuständen auf Aktionen) mittels gradientenbasierter Methoden direkt optimiert. Er ist entscheidend für die Bewältigung hochdimensionaler Aktionsräume und das Lernen stochastischer Policies, indem er durch das direkte Lernen der Policy Vorteile gegenüber wertbasierten Methoden bietet.

reinforcement learning machine learning Policy Gradients

RESEARCHarXiv CS.CL·4/15/2026

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

SD-Zero (Self-Distillation Zero) ist eine neuartige Post-Training-Methode, die darauf ausgelegt ist, trainingseffizienter als herkömmliches Reinforcement Learning zu sein, ohne externe Lehrer oder hochwertige Demonstrationen zu benötigen. Dabei agiert ein einziges Modell als Generator und Reviser, wobei die verbesserten Antworten und Token-Verteilungen des Revisers genutzt werden, um dem Generator mittels On-Policy-Selbst-Destillation eine dichte Supervision zu bieten.

reinforcement learning post-training Dense Supervision Self-Distillation

RESEARCHarXiv CS.AI·4/15/2026

Self-Monitoring Benefits from Structural Integration: Lessons from Metacognition in Continuous-Time Multi-Timescale Agents

Diese Forschung untersucht den Nutzen von Selbstüberwachungsfähigkeiten (Metakognition, Selbstprädiktion) bei Reinforcement-Learning-Agenten und kommt zu dem Ergebnis, dass diese keinen signifikanten Vorteil bieten. Die implementierten Module lieferten nahezu konstante Ausgaben, was die Ineffektivität der getesteten Mechanismen verdeutlicht.

reinforcement learning Metacognition self-monitoring continuous-time agents