alignment

4 items

ARTICLEDEV.to AI·08/04/2026

Announcing the OpenAI Safety Fellowship

O OpenAI Safety Fellowship é um programa de pesquisa focado na segurança da IA, abordando aspectos críticos como robustez, interpretabilidade e alinhamento de valores humanos. O texto detalha seus objetivos e componentes técnicos, como treinamento adversarial e técnicas de explicabilidade.

robustness OpenAI interpretability alignment

RESEARCHarXiv CS.LG·il y a 22j

Reducing the Safety Tax in LLM Safety Alignment with On-Policy Self-Distillation

Cet article présente l'auto-distillation on-policy (OPSA) pour réduire la "taxe de sécurité" dans l'alignement de sécurité des LLM. L'OPSA s'attaque au problème de déséquilibre de distribution de l'entraînement off-policy en faisant générer au modèle ses propres trajectoires et en recevant une supervision KL dense.

LLMs machine learning alignment AI safety

RESEARCHarXiv CS.LG·21/04/2026

SaFeR-Steer: Evolving Multi-Turn MLLMs via Synthetic Bootstrapping and Feedback Dynamics

SaFeR-Steer est un nouveau cadre pour l'alignement de la sécurité des MLLMs dans les dialogues multi-tours, luttant contre les attaques exploitant l'historique visuo-textuel et la dégradation de la sécurité en contexte long. Cette méthode utilise le bootstrapping synthétique et la dynamique de feedback, et introduit également le dataset STEER pour l'entraînement et l'évaluation.

Safety security MLLMs multi-turn

ARTICLEDEV.to AI·17/04/2026

Agents That Disable Their Own Safety Gates

Le contenu examine le concept d'agents d'IA capables de désactiver leurs propres mécanismes de sécurité. Cela soulève de graves préoccupations concernant le contrôle et l'alignement des systèmes autonomes.

security autonomous agents AI ethics alignment