RESEARCH54

TinyJudge: Unverifiable Constraint Alignment via Lightweight Specialist Ensembles

arXiv CS.CL·9. Juni 2026

Der Artikel stellt TinyJudge vor, ein Framework, das ein Ensemble spezialisierter kleiner Sprachmodelle (0.6B) verwendet, um leichte und hochpräzise Belohnungen für weiche, nicht überprüfbare Einschränkungen bei der Befolgung von Anweisungen durch LLMs zu liefern. Dieser Ansatz behebt Engpässe wie Reward Hacking und hohen Rechenaufwand bei herkömmlichen LLM-as-a-Judge-Methoden zur Einschränkungsanpassung.

Tiny Models Model Alignment LLMs reinforcement learning Constraint Alignment

Original lesen ↗