ReAD: Reinforcement-Guided Capability Distillation for Large Language Models
ReAD propose un cadre de distillation de capacités guidé par le renforcement pour les Grands Modèles de Langage (LLMs), visant à compresser ces modèles tout en préservant les compétences essentielles pour des tâches spécifiques. Il tient compte explicitement de l'interdépendance des capacités pour optimiser l'utilisation du budget de tokens et prévenir la dégradation d'autres compétences utiles.