RESEARCH28

Optimistic Policy Learning under Pessimistic Adversaries with Regret and Violation Guarantees

arXiv CS.LG·17 avril 2026

Cette recherche aborde le défi de la prise de décision dans des environnements avec des adversaires stratégiques ou des facteurs externes, où les politiques traditionnelles peuvent échouer catastrophiquement dans des contextes de sécurité critiques. Elle propose une approche d'apprentissage de politiques optimiste conçue pour tenir compte de ces interactions et fournir des garanties de regret et de violation.

reinforcement learning robust AI adversarial AI

Lire l'original ↗