RESEARCH28

ReAD: Reinforcement-Guided Capability Distillation for Large Language Models

arXiv CS.CL·13. Mai 2026

ReAD schlägt einen verstärkungsgesteuerten Ansatz zur Fähigkeitsdestillation für Große Sprachmodelle (LLMs) vor, um Modelle zu komprimieren und dabei wesentliche Fähigkeiten für nachgelagerte Aufgaben zu erhalten. Dieser Rahmen berücksichtigt explizit die Interdependenz von Fähigkeiten, um das Token-Budget zu optimieren und die Degradierung nützlicher Fähigkeiten zu verhindern.

Model Compression Knowledge Distillation LLMs reinforcement learning learning

Original lesen ↗