← heapsort-ai

reinforcement learning

153 items

RESEARCHarXiv CS.CL·4/20/2026

"Excuse me, may I say something..." CoLabScience, A Proactive AI Assistant for Biomedical Discovery and LLM-Expert Collaborations

CoLabScience wird als proaktiver LLM-Assistent vorgestellt, der die biomedizinische Entdeckung durch verbesserte Zusammenarbeit zwischen KI und menschlichen Experten beschleunigen soll. Es nutzt PULI, ein neuartiges Reinforcement-Learning-Framework für zeitnahe Interventionen, und führt zudem BSDD, einen neuen Benchmark-Datensatz für simulierte Forschungsdialoge, ein.

27
RESEARCHDEV.to AI·4/12/2026

Explainable Causal Reinforcement Learning for wildfire evacuation logistics networks in carbon-negative infrastructure

Diese Forschung konzentriert sich auf die Überwindung der Einschränkungen standardmäßiger Reinforcement-Learning-Modelle bei der Optimierung von Evakuierungen bei Waldbränden. Der Verfasser wendet kausale Inferenz, inspiriert von Judea Pearl und Bernhard Schölkopf, an, um unerklärlichen Empfehlungen und Störvariablen zu begegnen.

27
ARTICLEDEV.to AI·5/7/2026

Meta-Optimized Continual Adaptation for circular manufacturing supply chains in carbon-negative infrastructure

Der Autor beschreibt einen entscheidenden Moment, in dem statische Optimierung, einschließlich Meta-Lernen, für dynamische Lieferketten der Kreislaufwirtschaft obsolet wurde und bei plötzlichen politischen Änderungen wie einer Kohlenstoffsteuer katastrophal versagte. Diese Erfahrung legte die grundlegende Begrenzung traditioneller Methoden bei der Anpassung an reale Komplexitäten offen.

27
RESEARCHDEV.to AI·5/6/2026

Generative Simulation Benchmarking for deep-sea exploration habitat design during mission-critical recovery windows

Dieser Inhalt beschreibt die Reise eines Forschers bei der Nutzung generativer KI für das Design von Tiefsee-Explorationshabitaten. Nach einem anfänglichen Misserfolg begab er sich auf eine einjährige Studie, um Methoden zum Benchmarking generativer Modelle unter realen Bedingungen in extremen Umgebungen zu entwickeln.

27
RESEARCHDEV.to AI·4/21/2026

Explainable Causal Reinforcement Learning for satellite anomaly response operations under multi-jurisdictional compliance

Der Text behandelt die Notwendigkeit erklärbarer und kausaler KI für Raumfahrtoperationen, illustriert durch einen Satellitenvorfall, bei dem eine automatische Korrektur Datenschutzbestimmungen verletzte. Er hebt das Versagen traditioneller KI-Ansätze hervor, die Komplexität technischer Einschränkungen, operationeller Prioritäten und juristischer Grenzen zu bewältigen.

27
ARTICLEDEV.to AI·vor 14T

Human-Aligned Decision Transformers for bio-inspired soft robotics maintenance under real-time policy constraints

Ein persönlicher Bericht beschreibt den Kampf eines Forschers mit einem Decision Transformer, der bei der Wartung bio-inspirierter weicher Robotergreifer im realen Einsatz versagte, trotz hoher Simulationsleistung. Das entscheidende Problem war die Diskrepanz zwischen der gelernten Richtlinie der KI und den menschlichen Sicherheitserwartungen für die empfindliche Hardware.

27
DOCDEV.to AI·5/10/2026

Understanding Reinforcement Learning with Neural Networks Part 2: Why Backpropagation Is Not Enough

Dieser Artikel, Teil einer Reihe, erklärt, warum die Standard-Backpropagation für bestimmte Szenarien des Reinforcement Learning unzureichend ist. Er hebt die Notwendigkeit von Policy Gradients hervor, indem er demonstriert, wie die Fehlerberechnung und Ableitungsanwendung sich vom traditionellen Training neuronaler Netze unterscheiden.

27
ARTICLEDEV.to AI·4/16/2026

Policy Gradients — Deep Dive + Problem: Valid Parentheses

Policy Gradients ist ein fundamentaler Reinforcement Learning-Algorithmus, der die Policy (die Abbildung von Zuständen auf Aktionen) mittels gradientenbasierter Methoden direkt optimiert. Er ist entscheidend für die Bewältigung hochdimensionaler Aktionsräume und das Lernen stochastischer Policies, indem er durch das direkte Lernen der Policy Vorteile gegenüber wertbasierten Methoden bietet.

27
RESEARCHarXiv CS.CL·4/15/2026

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

SD-Zero (Self-Distillation Zero) ist eine neuartige Post-Training-Methode, die darauf ausgelegt ist, trainingseffizienter als herkömmliches Reinforcement Learning zu sein, ohne externe Lehrer oder hochwertige Demonstrationen zu benötigen. Dabei agiert ein einziges Modell als Generator und Reviser, wobei die verbesserten Antworten und Token-Verteilungen des Revisers genutzt werden, um dem Generator mittels On-Policy-Selbst-Destillation eine dichte Supervision zu bieten.

27
RESEARCHarXiv CS.AI·4/15/2026

Self-Monitoring Benefits from Structural Integration: Lessons from Metacognition in Continuous-Time Multi-Timescale Agents

Diese Forschung untersucht den Nutzen von Selbstüberwachungsfähigkeiten (Metakognition, Selbstprädiktion) bei Reinforcement-Learning-Agenten und kommt zu dem Ergebnis, dass diese keinen signifikanten Vorteil bieten. Die implementierten Module lieferten nahezu konstante Ausgaben, was die Ineffektivität der getesteten Mechanismen verdeutlicht.

27