RESEARCH27
SaFeR-Steer: Evolving Multi-Turn MLLMs via Synthetic Bootstrapping and Feedback Dynamics
arXiv CS.LG·21 de abril de 2026
SaFeR-Steer es un nuevo marco para la alineación de seguridad de MLLMs en diálogos multi-turno, abordando ataques que explotan el historial visual-textual y la degradación de la seguridad en contextos largos. Este método utiliza bootstrapping sintético y dinámica de retroalimentación, y también introduce el conjunto de datos STEER para entrenamiento y evaluación.
Leer original ↗