RESEARCH54

BEACON: Behavioral Entropy Aggregation for Cross-Model Hallucination Detection in Large Language Models

arXiv CS.CL·9. Juni 2026

Das Papier stellt BEACON vor, ein Black-Box-Framework zur Erkennung von Halluzinationen in LLMs, das ausschließlich auf Modellausgaben basiert. Es extrahiert einen 31-dimensionalen Feature-Vektor, und ein gradientenverstärkter Klassifikator erreicht 0,8123 AUROC, was bestehende Baselines übertrifft.

LLMs hallucination machine learning detection AI safety

Original lesen ↗