← heapsort-ai

Natural Language Processing

168 items

RESEARCHarXiv CS.CL·17/04/2026

Chinese Essay Rhetoric Recognition Using LoRA, In-context Learning and Model Ensemble

Cet article étudie la reconnaissance de la rhétorique dans les essais chinois en utilisant des Large Language Models (LLM), LoRA et l'apprentissage en contexte pour évaluer les compétences linguistiques. La méthode proposée a obtenu la meilleure performance et a remporté le premier prix de la tâche d'évaluation de la reconnaissance de la rhétorique des essais chinois du CCL 2025.

27
RESEARCHarXiv CS.CL·il y a 19j

Parallel LLM Reasoning for Bias-Resilient, Robust Conceptual Abstraction

Cette étude propose un cadre structuré pour améliorer le raisonnement des LLM lors de l'analyse de documents longs, en s'attaquant aux biais contextuels et aux erreurs d'omission. Elle combine le traitement parallèle par blocs avec une consolidation basée sur des preuves pour des abstractions conceptuelles plus robustes et résistantes aux biais.

27
RESEARCHarXiv CS.CL·17/04/2026

Decoupling Scores and Text: The Politeness Principle in Peer Review

Cette étude examine la difficulté d'interpréter les retours des évaluations par les pairs, comparant l'efficacité des scores numériques et des textes pour prédire l'acceptation. La recherche révèle que les modèles basés sur les scores sont nettement plus précis (91%) que ceux basés sur le texte (81% avec les LLM), indiquant que l'information textuelle est moins fiable.

27
RESEARCHarXiv CS.CL·08/05/2026

Generating Query-Focused Summarization Datasets from Query-Free Summarization Datasets

Ce document propose un modèle basé sur des preuves pour générer des requêtes à partir d'ensembles de données de résumé sans requête, répondant au défi de trouver des ensembles de données adaptés pour la synthèse axée sur les requêtes (QFS). Les expériences montrent que les résumés générés à l'aide de ces requêtes basées sur des preuves obtiennent des scores ROUGE compétitifs, soutenant leur efficacité pour la tâche de QFS.

27
RESEARCHarXiv CS.CL·08/05/2026

AdaGATE: Adaptive Gap-Aware Token-Efficient Evidence Assembly for Multi-Hop Retrieval-Augmented Generation

AdaGATE est un contrôleur de preuves sans entraînement pour la Génération Augmentée par Récupération (RAG) multi-sauts, conçu pour gérer les preuves bruyantes ou redondantes dans des contextes limités. Il considère la sélection de preuves comme un problème de réparation contraint par les jetons, utilisant le suivi des lacunes et la génération de micro-requêtes pour équilibrer la couverture, la corroboration et la nouveauté.

27
RESEARCHarXiv CS.CL·20/04/2026

Applied Explainability for Large Language Models: A Comparative Study

Cet article présente une étude comparative de trois techniques d'explicabilité (Integrated Gradients, Attention Rollout et SHAP) appliquées à un modèle DistilBERT pour la classification de sentiments. L'étude conclut que les méthodes basées sur le gradient offrent des explications plus stables et intuitives, tandis que celles basées sur l'attention sont efficaces mais moins alignées avec les caractéristiques prédictives.

27
RESEARCHarXiv CS.CL·24/04/2026

Hierarchical Policy Optimization for Simultaneous Translation of Unbounded Speech

Ce travail propose une Optimisation de Politique Hiérarchique (HPO) pour la Traduction Vocale Simultanée (SST) utilisant des LLM, s'attaquant aux coûts computationnels élevés et aux données d'entraînement imparfaites. Le HPO emploie une récompense hiérarchique pour équilibrer qualité de traduction et latence, démontrant des améliorations substantielles des scores COMET et MetricX.

27
RESEARCHarXiv CS.CL·21/04/2026

Cross-Family Speculative Decoding for Polish Language Models on Apple~Silicon: An Empirical Evaluation of Bielik~11B with UAG-Extended MLX-LM

Cette recherche évalue le décodage spéculatif inter-familles pour les LLM polonais sur Apple Silicon, en étendant le cadre MLX-LM avec la Génération Assistée Universelle (UAG) pour la compatibilité inter-tokeniseurs. Les expériences montrent que la traduction de jetons sensible au contexte améliore considérablement les taux d'acceptation du Bielik 11B sur des jeux de données en langue polonaise.

27
ARTICLEDEV.to AI·16/04/2026

From Mumbles to Memos: Teaching AI to Understand Technician Voice Notes and Jargon

Ce contenu explique comment les propriétaires d'entreprises locales de CVC ou de plomberie perdent du temps à déchiffrer manuellement les mémos vocaux de leurs techniciens remplis de jargon. Il propose d'utiliser l'IA pour automatiser cela, en l'entraînant à extraire des données spécifiques et structurées de la parole non structurée, afin de surmonter ce goulot d'étranglement commercial.

27
RESEARCHarXiv CS.CL·21/04/2026

CFMS: Towards Explainable and Fine-Grained Chinese Multimodal Sarcasm Detection Benchmark

CFMS introduit le premier benchmark chinois de détection de sarcasme multimodal et à grain fin, composé de 2 796 paires image-texte avec des annotations à triple niveau. Cet ensemble de données vise à améliorer la compréhension sémantique fine et le raisonnement métaphorique des modèles d'IA, répondant aux limitations des benchmarks existants.

27
RESEARCHarXiv CS.LG·24/04/2026

Absorber LLM: Harnessing Causal Synchronization for Test-Time Training

Les Transformers rencontrent des coûts computationnels élevés et une forte consommation de mémoire pour les longues séquences, et les alternatives perdent les dépendances à long terme. Absorber LLM propose une synchronisation causale auto-supervisée pour absorber les contextes historiques dans les paramètres, garantissant qu'un modèle sans contexte corresponde à l'original avec un contexte complet pour les générations futures.

27
RESEARCHarXiv CS.CL·21/04/2026

LiFT: Does Instruction Fine-Tuning Improve In-Context Learning for Longitudinal Modelling by Large Language Models?

LiFT est un nouveau cadre de réglage fin par instruction visant à améliorer l'apprentissage en contexte des LLM pour les tâches PNL longitudinales, qui nécessitent un raisonnement sur des textes ordonnés temporellement. Il utilise un curriculum augmentant progressivement la difficulté temporelle, intégrant une structure d'apprentissage par quelques exemples et un conditionnement temporel, surpassant constamment les modèles de base sur divers ensembles de données et tailles de paramètres.

27
RESEARCHarXiv CS.CL·il y a 25j

Derivation Prompting: A Logic-Based Method for Improving Retrieval-Augmented Generation

Cet article introduit le Derivation Prompting, une nouvelle technique de prompting pour le framework Retrieval-Augmented Generation (RAG). La méthode vise à réduire les hallucinations et le raisonnement erroné des Large Language Models (LLMs) en appliquant systématiquement des règles prédéfinies pour dériver des conclusions. Une étude de cas a montré une réduction significative des réponses inacceptables par rapport aux méthodes RAG traditionnelles.

27
RESEARCHarXiv CS.CL·07/05/2026

FMI_SU_Yotkova_Kastreva at SemEval-2026 Task 13: Lightweight Detection of LLM-Generated Code via Stylometric Signals

Cet article décrit la participation à la tâche 13 de SemEval-2026, axée sur la détection légère de code généré par LLM via des signaux stylométriques. L'approche utilise des caractéristiques basées sur des ratios, des moteurs d'analyse et des classificateurs de langage, s'avérant efficace en termes de calcul avec un temps d'inférence quasi instantané.

27
RESEARCHarXiv CS.CL·il y a 29j

Can LLMs Take Retrieved Information with a Grain of Salt?

Cet article évalue la capacité des grands modèles de langage (LLM) à adapter leurs réponses à la certitude des informations récupérées, révélant des limitations systématiques. Il propose une stratégie d'interaction combinant des rappels préalables, une recalibration de la certitude et une simplification du contexte pour améliorer la fiabilité des LLM. Cette approche réduit les erreurs d'obéissance de 25% sans modifier les poids du modèle.

27
RESEARCHarXiv CS.CL·il y a 21j

Exploring Lightweight Large Language Models for Court View Generation

Cette recherche explore les capacités des Modèles de Langage Larges et Légers (LLM) dans la Génération de Vues Judiciaires Criminelles (CVG) et leur impact sur la prédiction des accusations en IA Juridique. L'étude examine systématiquement les architectures, la taille des LLM et les compare aux Réseaux de Neurones Profonds, introduisant également le cadre CVGEvalKit pour l'évaluation.

27
RESEARCHarXiv CS.CL·il y a 29j

MultiSoc-4D: A Benchmark for Diagnosing Instruction-Induced Label Collapse in Closed-Set LLM Annotation of Bengali Social Media

MultiSoc-4D est un nouveau benchmark de données de médias sociaux bengalis pour diagnostiquer le comportement des LLM dans l'annotation en ensemble fermé. La recherche révèle un phénomène de "collapse d'étiquettes induit par l'instruction", où les LLM préfèrent systématiquement les étiquettes de repli, sous-détectant les catégories minoritaires.

27
RESEARCHarXiv CS.CL·il y a 21j

A Scalable Tool for Measuring Manner and Result Verbs in Developmental Language Research

Cette recherche introduit une approche computationnelle évolutive pour mesurer les verbes de manière et de résultat, une distinction essentielle pour les études sur le développement du langage. Elle utilise de grands modèles linguistiques pour l'annotation de phrases et entraîne un classificateur basé sur RoBERTa, démontrant des performances prometteuses sur les ensembles de données d'évaluation.

27