RESEARCH27
Reinforcement Learning-based Knowledge Distillation with LLM-as-a-Judge
arXiv CS.CL·6 de abril de 2026
Este artigo propõe uma estrutura de Reinforcement Learning (RL) que utiliza um LLM como juiz para gerar recompensas, permitindo a destilação de conhecimento sem a necessidade de rótulos de verdade fundamental. A abordagem demonstra ganhos substanciais de desempenho em benchmarks de raciocínio matemático, sugerindo que avaliadores baseados em LLM podem produzir sinais de treinamento eficazes.
language modelsUnlabeled DataKnowledge DistillationMath ReasoningLLM-as-a-JudgeReinforcement Learning
Ler original ↗