RESEARCH28

ReAD: Reinforcement-Guided Capability Distillation for Large Language Models

arXiv CS.CL·13 de mayo de 2026

ReAD es un marco de destilación de capacidades guiado por refuerzo para Grandes Modelos de Lenguaje (LLMs), diseñado para comprimir modelos manteniendo las habilidades necesarias para tareas específicas. La propuesta considera la interdependencia de las capacidades para optimizar el presupuesto de tokens y evitar la degradación de habilidades útiles.

Model Compression Knowledge Distillation LLMs reinforcement learning learning

Leer original ↗