← heapsort-ai

Model Alignment

3 items

RESEARCHarXiv CS.CL·vor 20Std

TinyJudge: Unverifiable Constraint Alignment via Lightweight Specialist Ensembles

Der Artikel stellt TinyJudge vor, ein Framework, das ein Ensemble spezialisierter kleiner Sprachmodelle (0.6B) verwendet, um leichte und hochpräzise Belohnungen für weiche, nicht überprüfbare Einschränkungen bei der Befolgung von Anweisungen durch LLMs zu liefern. Dieser Ansatz behebt Engpässe wie Reward Hacking und hohen Rechenaufwand bei herkömmlichen LLM-as-a-Judge-Methoden zur Einschränkungsanpassung.

54
RESEARCHarXiv CS.LG·4/14/2026

Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model

Diese Forschung untersucht Deliberative Alignment in LLMs, eine Methode zur Verbesserung der Sicherheit durch die Destillation von Denkfähigkeiten aus stärkeren Modellen. Es wird eine Ausrichtungslücke zwischen Lehrer- und Schülermodellen aufgedeckt, da letztere trotz des Erlernens fortgeschrittener Denkprozesse unsichere Verhaltensweisen des Basismodells beibehalten können; die Arbeit schlägt eine BoN-Sampling-Methode zur Bewältigung dieser Probleme vor.

27
RESEARCHarXiv CS.LG·4/27/2026

Mochi: Aligning Pre-training and Inference for Efficient Graph Foundation Models via Meta-Learning

Mochi ist ein Graph Foundation Model, das Effizienz und Aufgabenvereinheitlichung durch ein Meta-Learning-Framework verbessert. Es wird mit Few-Shot-Episoden vorab trainiert, die das nachgeschaltete Evaluierungsprotokoll widerspiegeln, und überwindet so die Einschränkungen herkömmlicher Methoden, um eine wettbewerbsfähige Leistung zu erzielen.

27