RESEARCH27

Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model

arXiv CS.LG·14 de abril de 2026

Esta pesquisa explora o Alinhamento Deliberativo em LLMs, um método que visa aprofundar a segurança ao destilar capacidades de raciocínio de modelos mais fortes. O estudo revela uma lacuna de alinhamento entre modelos professor e aluno, indicando que os modelos estudantes podem reter comportamentos inseguros do modelo base, apesar de aprenderem padrões de raciocínio avançados. O trabalho propõe um método de amostragem BoN para mitigar esses problemas.

Model Alignment LLMs Deliberative Alignment Reasoning AI safety

Ler original ↗