RESEARCH28
ReAD: Reinforcement-Guided Capability Distillation for Large Language Models
arXiv CS.CL·13. Mai 2026
ReAD schlägt einen verstärkungsgesteuerten Ansatz zur Fähigkeitsdestillation für Große Sprachmodelle (LLMs) vor, um Modelle zu komprimieren und dabei wesentliche Fähigkeiten für nachgelagerte Aufgaben zu erhalten. Dieser Rahmen berücksichtigt explizit die Interdependenz von Fähigkeiten, um das Token-Budget zu optimieren und die Degradierung nützlicher Fähigkeiten zu verhindern.
Original lesen ↗