← heapsort-ai

alignment

4 items

ARTICLEDEV.to AI·8/4/2026

Announcing the OpenAI Safety Fellowship

O OpenAI Safety Fellowship é um programa de pesquisa focado na segurança da IA, abordando aspectos críticos como robustez, interpretabilidade e alinhamento de valores humanos. O texto detalha seus objetivos e componentes técnicos, como treinamento adversarial e técnicas de explicabilidade.

28
RESEARCHarXiv CS.LG·21/4/2026

SaFeR-Steer: Evolving Multi-Turn MLLMs via Synthetic Bootstrapping and Feedback Dynamics

SaFeR-Steer es un nuevo marco para la alineación de seguridad de MLLMs en diálogos multi-turno, abordando ataques que explotan el historial visual-textual y la degradación de la seguridad en contextos largos. Este método utiliza bootstrapping sintético y dinámica de retroalimentación, y también introduce el conjunto de datos STEER para entrenamiento y evaluación.

27