RESEARCH28
ReAD: Reinforcement-Guided Capability Distillation for Large Language Models
arXiv CS.CL·13 de mayo de 2026
ReAD es un marco de destilación de capacidades guiado por refuerzo para Grandes Modelos de Lenguaje (LLMs), diseñado para comprimir modelos manteniendo las habilidades necesarias para tareas específicas. La propuesta considera la interdependencia de las capacidades para optimizar el presupuesto de tokens y evitar la degradación de habilidades útiles.
Leer original ↗