heapsort
RESEARCH28

ReAD: Reinforcement-Guided Capability Distillation for Large Language Models

arXiv CS.CL·13 de mayo de 2026

ReAD es un marco de destilación de capacidades guiado por refuerzo para Grandes Modelos de Lenguaje (LLMs), diseñado para comprimir modelos manteniendo las habilidades necesarias para tareas específicas. La propuesta considera la interdependencia de las capacidades para optimizar el presupuesto de tokens y evitar la degradación de habilidades útiles.

Leer original