← heapsort-ai

Tiny Models

1 items

RESEARCHarXiv CS.CL·21h atrás

TinyJudge: Unverifiable Constraint Alignment via Lightweight Specialist Ensembles

O artigo apresenta o TinyJudge, uma estrutura que emprega um conjunto de pequenos modelos de linguagem especializados (0.6B) para fornecer recompensas leves e de alta precisão para restrições suaves e não verificáveis no seguimento de instruções por LLMs. Esta abordagem visa superar gargalos como a manipulação de recompensas e o alto custo computacional em métodos tradicionais de alinhamento de restrições.

46