Why Fine-Tuning Encourages Hallucinations and How to Fix It
Los grandes modelos de lenguaje a menudo alucinan hechos, un problema exacerbado por el ajuste fino supervisado (SFT) que degrada el conocimiento preentrenado. Esta investigación propone un método SFT basado en autodestilación, inspirado en el aprendizaje continuo, para mitigar las alucinaciones regulando la deriva de la distribución de salida, mientras adquiere efectivamente nueva información fáctica.