RESEARCHarXiv CS.CL·vor 20Std
TinyJudge: Unverifiable Constraint Alignment via Lightweight Specialist Ensembles
Der Artikel stellt TinyJudge vor, ein Framework, das ein Ensemble spezialisierter kleiner Sprachmodelle (0.6B) verwendet, um leichte und hochpräzise Belohnungen für weiche, nicht überprüfbare Einschränkungen bei der Befolgung von Anweisungen durch LLMs zu liefern. Dieser Ansatz behebt Engpässe wie Reward Hacking und hohen Rechenaufwand bei herkömmlichen LLM-as-a-Judge-Methoden zur Einschränkungsanpassung.
54