RESEARCH27

SaFeR-Steer: Evolving Multi-Turn MLLMs via Synthetic Bootstrapping and Feedback Dynamics

arXiv CS.LG·21 de abril de 2026

SaFeR-Steer é uma nova estrutura para alinhar a segurança de MLLMs em diálogos multi-turn, combatendo ataques que exploram o histórico visual-textual e a degradação da segurança em contextos longos. Este método utiliza bootstrapping sintético e feedback dinâmico, introduzindo também o dataset STEER para treinamento e avaliação.

Safety security MLLMs multi-turn alignment

Ler original ↗