RESEARCH27

SaFeR-Steer: Evolving Multi-Turn MLLMs via Synthetic Bootstrapping and Feedback Dynamics

arXiv CS.LG·21 avril 2026

SaFeR-Steer est un nouveau cadre pour l'alignement de la sécurité des MLLMs dans les dialogues multi-tours, luttant contre les attaques exploitant l'historique visuo-textuel et la dégradation de la sécurité en contexte long. Cette méthode utilise le bootstrapping synthétique et la dynamique de feedback, et introduit également le dataset STEER pour l'entraînement et l'évaluation.

Safety security MLLMs multi-turn alignment

Lire l'original ↗