RESEARCH27
Learning When to Act: Communication-Efficient Reinforcement Learning via Run-Time Assurance
arXiv CS.LG·14 de maio de 2026
Este artigo propõe uma abordagem de aprendizado por reforço eficiente em comunicação, onde uma única política aprende decisões de controle e tempo, protegida por uma camada de segurança Lyapunov. Um sistema de garantia em tempo de execução anula a política para fornecer garantias de segurança mais fortes e aumentar significativamente os intervalos médios entre amostras em sistemas robóticos.
Ler original ↗