← heapsort-ai

alignment

4 items

ARTICLEDEV.to AI·4/8/2026

Announcing the OpenAI Safety Fellowship

O OpenAI Safety Fellowship é um programa de pesquisa focado na segurança da IA, abordando aspectos críticos como robustez, interpretabilidade e alinhamento de valores humanos. O texto detalha seus objetivos e componentes técnicos, como treinamento adversarial e técnicas de explicabilidade.

28
RESEARCHarXiv CS.LG·4/21/2026

SaFeR-Steer: Evolving Multi-Turn MLLMs via Synthetic Bootstrapping and Feedback Dynamics

SaFeR-Steer ist ein neuer Rahmen zur Sicherheitsausrichtung von MLLMs in mehrstufigen Dialogen, der Angriffe bekämpft, die den visuellen und textlichen Verlauf sowie den Sicherheitsverfall in langen Kontexten ausnutzen. Diese Methode verwendet synthetisches Bootstrapping und Feedback-Dynamik und führt zudem den STEER-Datensatz für Training und Bewertung ein.

27