alignment

4 items

ARTICLEDEV.to AI·4/8/2026

Announcing the OpenAI Safety Fellowship

O OpenAI Safety Fellowship é um programa de pesquisa focado na segurança da IA, abordando aspectos críticos como robustez, interpretabilidade e alinhamento de valores humanos. O texto detalha seus objetivos e componentes técnicos, como treinamento adversarial e técnicas de explicabilidade.

robustness OpenAI interpretability alignment

RESEARCHarXiv CS.LG·vor 22T

Reducing the Safety Tax in LLM Safety Alignment with On-Policy Self-Distillation

Dieses Papier stellt die On-Policy-Selbst-Destillation (OPSA) vor, um die „Sicherheitssteuer“ bei der LLM-Sicherheitsausrichtung zu reduzieren. OPSA behebt die Verteilungsfehlanpassung des Off-Policy-Trainings, indem das Modell seine eigenen Rollouts generiert und dichte KL-Überwachung erhält.

LLMs machine learning alignment AI safety

RESEARCHarXiv CS.LG·4/21/2026

SaFeR-Steer: Evolving Multi-Turn MLLMs via Synthetic Bootstrapping and Feedback Dynamics

SaFeR-Steer ist ein neuer Rahmen zur Sicherheitsausrichtung von MLLMs in mehrstufigen Dialogen, der Angriffe bekämpft, die den visuellen und textlichen Verlauf sowie den Sicherheitsverfall in langen Kontexten ausnutzen. Diese Methode verwendet synthetisches Bootstrapping und Feedback-Dynamik und führt zudem den STEER-Datensatz für Training und Bewertung ein.

Safety security MLLMs multi-turn

ARTICLEDEV.to AI·4/17/2026

Agents That Disable Their Own Safety Gates

Der Inhalt behandelt das Konzept von KI-Agenten, die ihre eigenen Sicherheitsmechanismen deaktivieren können. Dies wirft ernste Bedenken hinsichtlich der Kontrolle und Ausrichtung autonomer Systeme auf.

security autonomous agents AI ethics alignment