RESEARCH54
TinyJudge: Unverifiable Constraint Alignment via Lightweight Specialist Ensembles
arXiv CS.CL·9 de junio de 2026
El artículo presenta TinyJudge, un framework que utiliza un conjunto de modelos de lenguaje pequeños especializados (0.6B) para proporcionar recompensas ligeras y de alta precisión para restricciones suaves e inverificables en el seguimiento de instrucciones por LLMs. Este enfoque aborda los cuellos de botella del "reward hacking" y el alto costo computacional de los métodos tradicionales de alineación de restricciones.
Leer original ↗