RESEARCH27

Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model

arXiv CS.LG·14. April 2026

Diese Forschung untersucht Deliberative Alignment in LLMs, eine Methode zur Verbesserung der Sicherheit durch die Destillation von Denkfähigkeiten aus stärkeren Modellen. Es wird eine Ausrichtungslücke zwischen Lehrer- und Schülermodellen aufgedeckt, da letztere trotz des Erlernens fortgeschrittener Denkprozesse unsichere Verhaltensweisen des Basismodells beibehalten können; die Arbeit schlägt eine BoN-Sampling-Methode zur Bewältigung dieser Probleme vor.

Model Alignment LLMs Deliberative Alignment Reasoning AI safety

Original lesen ↗