Model Alignment

3 items

RESEARCHarXiv CS.CL·il y a 20h

TinyJudge: Unverifiable Constraint Alignment via Lightweight Specialist Ensembles

L'article introduit TinyJudge, un cadre qui utilise un ensemble de petits modèles de langage spécialisés (0.6B) pour fournir des récompenses légères et de haute précision pour les contraintes douces et invérifiables dans le suivi d'instructions par les LLM. Cette approche vise à résoudre les problèmes d'évasion des récompenses et de surcharge computationnelle des méthodes traditionnelles d'alignement des contraintes.

Tiny Models Model Alignment LLMs reinforcement learning

RESEARCHarXiv CS.LG·14/04/2026

Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model

Cette recherche examine l'Alignement Délibératif dans les LLM, une méthode conçue pour approfondir la sécurité en distillant les capacités de raisonnement de modèles plus performants. Elle révèle un écart d'alignement entre les modèles enseignant et étudiant, montrant que les modèles étudiants peuvent conserver des comportements dangereux du modèle de base malgré l'apprentissage de schémas de raisonnement avancés. L'article propose une méthode d'échantillonnage BoN pour relever ces défis.

Model Alignment LLMs Deliberative Alignment Reasoning

RESEARCHarXiv CS.LG·27/04/2026

Mochi: Aligning Pre-training and Inference for Efficient Graph Foundation Models via Meta-Learning

Mochi est un modèle de fondation graphique qui améliore l'efficacité et l'unification des tâches grâce à un cadre d'entraînement basé sur le méta-apprentissage. Il se pré-entraîne sur des épisodes à faible nombre d'exemples qui imitent directement l'évaluation en aval, surmontant les limites des méthodes traditionnelles et obtenant des performances compétitives.

Meta-Learning Model Alignment Graph Neural Networks Foundation Models