RESEARCH28
ReAD: Reinforcement-Guided Capability Distillation for Large Language Models
arXiv CS.CL·13 de maio de 2026
ReAD é uma nova estrutura para destilação de capacidades em Grandes Modelos de Linguagem (LLMs), que visa comprimir modelos preservando habilidades essenciais para tarefas específicas. A pesquisa aborda a interdependência entre capacidades, propondo um método guiado por reforço para otimizar o uso do orçamento de tokens.
Ler original ↗