RESEARCH28

ReAD: Reinforcement-Guided Capability Distillation for Large Language Models

arXiv CS.CL·13 de maio de 2026

ReAD é uma nova estrutura para destilação de capacidades em Grandes Modelos de Linguagem (LLMs), que visa comprimir modelos preservando habilidades essenciais para tarefas específicas. A pesquisa aborda a interdependência entre capacidades, propondo um método guiado por reforço para otimizar o uso do orçamento de tokens.

Model Compression Knowledge Distillation LLMs reinforcement learning learning

Ler original ↗