RESEARCH27

Reinforcement Learning-based Knowledge Distillation with LLM-as-a-Judge

arXiv CS.CL·6 de abril de 2026

Este artigo propõe uma estrutura de Reinforcement Learning (RL) que utiliza um LLM como juiz para gerar recompensas, permitindo a destilação de conhecimento sem a necessidade de rótulos de verdade fundamental. A abordagem demonstra ganhos substanciais de desempenho em benchmarks de raciocínio matemático, sugerindo que avaliadores baseados em LLM podem produzir sinais de treinamento eficazes.

language modelsUnlabeled DataKnowledge DistillationMath ReasoningLLM-as-a-JudgeReinforcement Learning

Ler original ↗