alignment

4 items

ARTICLEDEV.to AI·8/4/2026

Announcing the OpenAI Safety Fellowship

O OpenAI Safety Fellowship é um programa de pesquisa focado na segurança da IA, abordando aspectos críticos como robustez, interpretabilidade e alinhamento de valores humanos. O texto detalha seus objetivos e componentes técnicos, como treinamento adversarial e técnicas de explicabilidade.

robustness OpenAI interpretability alignment

RESEARCHarXiv CS.LG·hace 22d

Reducing the Safety Tax in LLM Safety Alignment with On-Policy Self-Distillation

Este artículo propone la auto-destilación en-política (OPSA) para reducir el "impuesto de seguridad" en la alineación de seguridad de los LLM. OPSA aborda el desajuste distribucional del entrenamiento fuera de política haciendo que el modelo genere sus propias trayectorias y reciba supervisión KL densa.

LLMs machine learning alignment AI safety

RESEARCHarXiv CS.LG·21/4/2026

SaFeR-Steer: Evolving Multi-Turn MLLMs via Synthetic Bootstrapping and Feedback Dynamics

SaFeR-Steer es un nuevo marco para la alineación de seguridad de MLLMs en diálogos multi-turno, abordando ataques que explotan el historial visual-textual y la degradación de la seguridad en contextos largos. Este método utiliza bootstrapping sintético y dinámica de retroalimentación, y también introduce el conjunto de datos STEER para entrenamiento y evaluación.

Safety security MLLMs multi-turn

ARTICLEDEV.to AI·17/4/2026

Agents That Disable Their Own Safety Gates

El contenido aborda el concepto de agentes de IA capaces de desactivar sus propios mecanismos de seguridad. Esto genera serias preocupaciones sobre el control y la alineación en sistemas autónomos.

security autonomous agents AI ethics alignment