RESEARCH28
Optimistic Policy Learning under Pessimistic Adversaries with Regret and Violation Guarantees
arXiv CS.LG·17 de abril de 2026
Esta investigación aborda el desafío de la toma de decisiones en entornos con adversarios estratégicos o factores externos, donde las políticas tradicionales pueden fallar catastróficamente en entornos críticos para la seguridad. Propone un enfoque optimista de aprendizaje de políticas diseñado para tener en cuenta estas interacciones y proporcionar garantías de arrepentimiento y violación.
Leer original ↗