← heapsort-ai

alignment

4 items

ARTICLEDEV.to AI·08/04/2026

Announcing the OpenAI Safety Fellowship

O OpenAI Safety Fellowship é um programa de pesquisa focado na segurança da IA, abordando aspectos críticos como robustez, interpretabilidade e alinhamento de valores humanos. O texto detalha seus objetivos e componentes técnicos, como treinamento adversarial e técnicas de explicabilidade.

28
RESEARCHarXiv CS.LG·21/04/2026

SaFeR-Steer: Evolving Multi-Turn MLLMs via Synthetic Bootstrapping and Feedback Dynamics

SaFeR-Steer est un nouveau cadre pour l'alignement de la sécurité des MLLMs dans les dialogues multi-tours, luttant contre les attaques exploitant l'historique visuo-textuel et la dégradation de la sécurité en contexte long. Cette méthode utilise le bootstrapping synthétique et la dynamique de feedback, et introduit également le dataset STEER pour l'entraînement et l'évaluation.

27