← heapsort-ai

hallucination detection

4 items

RESEARCHarXiv CS.AI·9/4/2026

Weakly Supervised Distillation of Hallucination Signals into Transformer Representations

Este artigo propõe um novo método para detecção de alucinações em LLMs, destilando sinais de supervisão externa diretamente nas representações internas do modelo durante o treinamento. Para isso, introduz um framework de supervisão fraca que combina correspondência de substrings, similaridade de embeddings e um LLM como juiz, culminando na criação de um dataset de 15.000 amostras para este propósito.

28