RESEARCH28

Weakly Supervised Distillation of Hallucination Signals into Transformer Representations

arXiv CS.AI·9 de abril de 2026

Este artigo propõe um novo método para detecção de alucinações em LLMs, destilando sinais de supervisão externa diretamente nas representações internas do modelo durante o treinamento. Para isso, introduz um framework de supervisão fraca que combina correspondência de substrings, similaridade de embeddings e um LLM como juiz, culminando na criação de um dataset de 15.000 amostras para este propósito.

Transformer RepresentationsHallucination DetectionLLMsMachine LearningWeak Supervision

Ler original ↗