← heapsort-ai

semantic analysis

5 items

RESEARCHarXiv CS.CL·4/16/2026

Text-as-Signal: Quantitative Semantic Scoring with Embeddings, Logprobs, and Noise Reduction

Dieses Papier stellt eine praktische Pipeline vor, um Textkorpora mithilfe von Embeddings, Logprob-basierter Evaluation und Rauschunterdrückung in quantitative semantische Signale umzuwandeln. Die Fallstudie wendet sechs semantische Dimensionen auf portugiesische Nachrichtenartikel über KI an, um Aufgaben des KI-Engineerings wie Korpusinspektion und -überwachung zu unterstützen.

30
RESEARCHarXiv CS.CL·vor 18T

Sem-Detect: Semantic Level Detection of AI Generated Peer-Reviews

Sem-Detect ist eine neue Methode zur Unterscheidung von menschlich verfassten und KI-generierten Peer-Reviews, die textuelle Merkmale mit semantischer Analyse auf Anspruchsebene kombiniert. Sie nutzt die Beobachtung, dass KI-Modelle dazu neigen, sich auf ähnliche Punkte zu einigen, während menschliche Gutachter einzigartigere Ideen einbringen, was die Erkennung vollständig KI-generierter Reviews und solcher, die von LLMs verfeinert wurden, ermöglicht.

28
RESEARCHarXiv CS.CL·4/10/2026

Reasoning-Based Refinement of Unsupervised Text Clusters with LLMs

Este artigo propõe uma estrutura de refinamento baseada em raciocínio que utiliza LLMs como juízes semânticos para validar e reestruturar os resultados de algoritmos de agrupamento de texto não supervisionados. A estrutura inclui verificação de coerência, adjudicação de redundância e fundamentação de rótulos, visando melhorar a qualidade dos clusters sem dados rotulados.

28
RESEARCHarXiv CS.CL·vor 6T

On the Persistent Effects of Lexicality in Large Language Mod

Diese Arbeit untersucht den anhaltenden Effekt lexikalischer Überschneidungen im Gegensatz zu semantischen Inhalten auf Repräsentationen aus großen Sprachmodellen (LLMs) und deren Implikationen. Die Autoren stellen fest, dass der lexikalische Einfluss über Modelltiefe, Architekturen und Trainingsregime hinweg konsistent ist, selbst bei Modellen, die für semantische Ähnlichkeit trainiert wurden.

27
RESEARCHarXiv CS.CL·4/15/2026

Leveraging Weighted Syntactic and Semantic Context Assessment Summary (wSSAS) Towards Text Categorization Using LLMs

Dieses Papier stellt das Weighted Syntactic and Semantic Context Assessment Summary (wSSAS) vor, ein deterministisches Framework zur Optimierung der Textkategorisierung mittels LLMs. Es begegnet LLM-Einschränkungen, indem es Texte hierarchisch organisiert und ein Signal-Rausch-Verhältnis (SNR) nutzt, um sich auf hochrelevante semantische Merkmale zu konzentrieren.

27