RESEARCH28

Optimistic Policy Learning under Pessimistic Adversaries with Regret and Violation Guarantees

arXiv CS.LG·17 de abril de 2026

Esta investigación aborda el desafío de la toma de decisiones en entornos con adversarios estratégicos o factores externos, donde las políticas tradicionales pueden fallar catastróficamente en entornos críticos para la seguridad. Propone un enfoque optimista de aprendizaje de políticas diseñado para tener en cuenta estas interacciones y proporcionar garantías de arrepentimiento y violación.

reinforcement learning robust AI adversarial AI

Leer original ↗