RESEARCHarXiv CS.LG·vor 26T
Learning When to Act: Communication-Efficient Reinforcement Learning via Run-Time Assurance
Dieses Papier stellt einen kommunikationseffizienten Reinforcement-Learning-Ansatz vor, bei dem eine einzige Politik sowohl Steuerungs- als auch Timing-Entscheidungen lernt, geschützt durch ein punktuelles Lyapunov-Sicherheitsschild. Eine Laufzeit-Assurance-Schicht setzt die Politik außer Kraft, um strengere Sicherheitsgarantien zu bieten und deutlich höhere mittlere Abtastintervalle bei verschiedenen Systemen zu erzielen.
27