on-policy distillation — artigos, notícias e pesquisas de IA

RESEARCHarXiv CS.CL·1d atrás

Data-Efficient Autoregressive-to-Diffusion Language Models via On-Policy Distillation

Este artigo apresenta o Modelo de Linguagem de Difusão On-Policy (OPDLM) para transformar modelos autorregressivos (ARLMs) em modelos de linguagem de difusão (DLMs). Ele aborda problemas como a perda de conhecimento e a incompatibilidade entre treinamento e inferência, empregando a Destilação On-Policy (OPD).

Diffusion Models language models AI models machine learning