← heapsort-ai

safety-critical-ai

1 items

RESEARCHarXiv CS.LG·hace 26d

Learning When to Act: Communication-Efficient Reinforcement Learning via Run-Time Assurance

Este artículo propone un enfoque de aprendizaje por refuerzo eficiente en comunicación, donde una sola política aprende decisiones de control y temporización, protegida por un escudo de seguridad Lyapunov. Una capa de garantía en tiempo de ejecución anula la política para proporcionar garantías de seguridad más fuertes y lograr intervalos entre muestras significativamente mayores en varios sistemas.

27