RESEARCHarXiv CS.LG·14/04/2026
Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model
Esta pesquisa explora o Alinhamento Deliberativo em LLMs, um método que visa aprofundar a segurança ao destilar capacidades de raciocínio de modelos mais fortes. O estudo revela uma lacuna de alinhamento entre modelos professor e aluno, indicando que os modelos estudantes podem reter comportamentos inseguros do modelo base, apesar de aprenderem padrões de raciocínio avançados. O trabalho propõe um método de amostragem BoN para mitigar esses problemas.
27