RESEARCH27

SaFeR-Steer: Evolving Multi-Turn MLLMs via Synthetic Bootstrapping and Feedback Dynamics

arXiv CS.LG·21. April 2026

SaFeR-Steer ist ein neuer Rahmen zur Sicherheitsausrichtung von MLLMs in mehrstufigen Dialogen, der Angriffe bekämpft, die den visuellen und textlichen Verlauf sowie den Sicherheitsverfall in langen Kontexten ausnutzen. Diese Methode verwendet synthetisches Bootstrapping und Feedback-Dynamik und führt zudem den STEER-Datensatz für Training und Bewertung ein.

Safety security MLLMs multi-turn alignment

Original lesen ↗