heapsort
RESEARCH27

Learning When to Act: Communication-Efficient Reinforcement Learning via Run-Time Assurance

arXiv CS.LG·14 mai 2026

Cet article présente une approche d'apprentissage par renforcement économe en communication, où une seule politique apprend à la fois les entrées de commande et les décisions de synchronisation, protégée par un bouclier de sécurité Lyapunov ponctuel. Une couche d'assurance d'exécution annule la politique pour fournir des garanties de sécurité plus strictes et obtenir des intervalles inter-échantillons moyens nettement plus élevés sur divers systèmes.

Lire l'original