RESEARCHarXiv CS.LG·il y a 26j
Learning When to Act: Communication-Efficient Reinforcement Learning via Run-Time Assurance
Cet article présente une approche d'apprentissage par renforcement économe en communication, où une seule politique apprend à la fois les entrées de commande et les décisions de synchronisation, protégée par un bouclier de sécurité Lyapunov ponctuel. Une couche d'assurance d'exécution annule la politique pour fournir des garanties de sécurité plus strictes et obtenir des intervalles inter-échantillons moyens nettement plus élevés sur divers systèmes.
27