← heapsort-ai

semantic analysis

5 items

RESEARCHarXiv CS.CL·16/04/2026

Text-as-Signal: Quantitative Semantic Scoring with Embeddings, Logprobs, and Noise Reduction

Cet article présente un pipeline pratique pour transformer des corpus de texte en signaux sémantiques quantitatifs, en utilisant des embeddings, une évaluation basée sur les logprobs et la réduction du bruit. L'étude de cas applique six dimensions sémantiques à des articles de presse portugais sur l'IA, soutenant des tâches d'ingénierie de l'IA telles que l'inspection et le suivi de corpus.

30
RESEARCHarXiv CS.CL·il y a 18j

Sem-Detect: Semantic Level Detection of AI Generated Peer-Reviews

Sem-Detect est une nouvelle méthode pour distinguer les évaluations par les pairs rédigées par des humains de celles générées par l'IA, combinant des caractéristiques textuelles avec une analyse sémantique au niveau des revendications. Elle exploite l'observation que les modèles d'IA tendent à converger sur des points similaires, tandis que les évaluateurs humains introduisent des idées plus uniques, permettant la détection des évaluations entièrement IA et de celles affinées par des LLMs.

28
RESEARCHarXiv CS.CL·10/04/2026

Reasoning-Based Refinement of Unsupervised Text Clusters with LLMs

Este artigo propõe uma estrutura de refinamento baseada em raciocínio que utiliza LLMs como juízes semânticos para validar e reestruturar os resultados de algoritmos de agrupamento de texto não supervisionados. A estrutura inclui verificação de coerência, adjudicação de redundância e fundamentação de rótulos, visando melhorar a qualidade dos clusters sem dados rotulados.

28
RESEARCHarXiv CS.CL·15/04/2026

Leveraging Weighted Syntactic and Semantic Context Assessment Summary (wSSAS) Towards Text Categorization Using LLMs

Cet article introduit le Weighted Syntactic and Semantic Context Assessment Summary (wSSAS), un cadre déterministe pour optimiser la catégorisation de texte avec les LLMs. Il vise à surmonter les limites des LLMs en organisant le texte hiérarchiquement et en utilisant un rapport signal/bruit (SNR) pour se concentrer sur les caractéristiques sémantiques de grande valeur.

27
RESEARCHarXiv CS.CL·il y a 6j

On the Persistent Effects of Lexicality in Large Language Mod

Ce travail étudie l'effet persistant du chevauchement lexical, plutôt que du contenu sémantique, sur les représentations extraites des grands modèles linguistiques (LLM) et ses implications. Les auteurs constatent que l'influence lexicale s'étend sur la profondeur des modèles, les architectures et les régimes d'entraînement, y compris pour les modèles entraînés à la similarité sémantique.

27