Model Alignment

3 items

RESEARCHarXiv CS.CL·21h atrás

TinyJudge: Unverifiable Constraint Alignment via Lightweight Specialist Ensembles

O artigo apresenta o TinyJudge, uma estrutura que emprega um conjunto de pequenos modelos de linguagem especializados (0.6B) para fornecer recompensas leves e de alta precisão para restrições suaves e não verificáveis no seguimento de instruções por LLMs. Esta abordagem visa superar gargalos como a manipulação de recompensas e o alto custo computacional em métodos tradicionais de alinhamento de restrições.

Tiny Models Model Alignment LLMs reinforcement learning

RESEARCHarXiv CS.LG·14/04/2026

Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model

Esta pesquisa explora o Alinhamento Deliberativo em LLMs, um método que visa aprofundar a segurança ao destilar capacidades de raciocínio de modelos mais fortes. O estudo revela uma lacuna de alinhamento entre modelos professor e aluno, indicando que os modelos estudantes podem reter comportamentos inseguros do modelo base, apesar de aprenderem padrões de raciocínio avançados. O trabalho propõe um método de amostragem BoN para mitigar esses problemas.

Model Alignment LLMs Deliberative Alignment Reasoning

RESEARCHarXiv CS.LG·27/04/2026

Mochi: Aligning Pre-training and Inference for Efficient Graph Foundation Models via Meta-Learning

Mochi é um Modelo de Fundação Gráfica que melhora a eficiência e unificação de tarefas através de uma estrutura de treinamento baseada em meta-aprendizagem. Ele realiza o pré-treinamento com episódios few-shot que espelham a avaliação downstream, superando as limitações dos métodos tradicionais e alcançando desempenho competitivo.

Meta-Learning Model Alignment Graph Neural Networks Foundation Models