heapsort
RESEARCH27

Learning When to Act: Communication-Efficient Reinforcement Learning via Run-Time Assurance

arXiv CS.LG·14 de mayo de 2026

Este artículo propone un enfoque de aprendizaje por refuerzo eficiente en comunicación, donde una sola política aprende decisiones de control y temporización, protegida por un escudo de seguridad Lyapunov. Una capa de garantía en tiempo de ejecución anula la política para proporcionar garantías de seguridad más fuertes y lograr intervalos entre muestras significativamente mayores en varios sistemas.

Leer original