ReAD: Reinforcement-Guided Capability Distillation for Large Language Models
ReAD es un marco de destilación de capacidades guiado por refuerzo para Grandes Modelos de Lenguaje (LLMs), diseñado para comprimir modelos manteniendo las habilidades necesarias para tareas específicas. La propuesta considera la interdependencia de las capacidades para optimizar el presupuesto de tokens y evitar la degradación de habilidades útiles.