← heapsort-ai

Natural Language Processing

168 items

ARTICLEDEV.to AI·il y a 15j

GLM-4: The Chinese-English Bilingual Workhorse You Didn't Know You Needed

GLM-4 est un modèle d'IA bilingue chinois-anglais de l'Université Tsinghua / Zhipu AI, optimisé dès le départ pour les deux langues, contrairement à la plupart des modèles centrés sur l'anglais. Il dispose d'une architecture Mixture of Experts pour une inférence rapide, d'un long contexte allant jusqu'à 128K tokens et se concentre sur l'appel de fonctions et les flux de travail d'agents.

27
ARTICLEDEV.to AI·19/04/2026

Attention Mechanisms: Stop Compressing, Start Looking Back

Cet article explore les limites des LSTMs dans le maintien du contexte, malgré leurs capacités de mémoire améliorées par rapport aux RNNs classiques. L'auteur utilise son expérience personnelle d'apprentissage de l'anglais pour illustrer les trois problèmes spécifiques que les LSTMs ne résolvent toujours pas, préparant le terrain pour la discussion des mécanismes d'attention.

27
ARTICLEDEV.to AI·17/04/2026

Error Genome: Teaching Your AI System to Learn from Failures

L'auteur a construit un système d'IA de support client, Nova, qui a connu un succès significatif en se concentrant sur l'apprentissage de ses erreurs plutôt que sur la simple minimisation de celles-ci. Cette approche, nommée "Error Genome", a entraîné une réduction de 40 % du taux d'erreur et une augmentation de 20 % de la précision globale du système.

27
RESEARCHarXiv CS.CL·15/04/2026

Leveraging Weighted Syntactic and Semantic Context Assessment Summary (wSSAS) Towards Text Categorization Using LLMs

Cet article introduit le Weighted Syntactic and Semantic Context Assessment Summary (wSSAS), un cadre déterministe pour optimiser la catégorisation de texte avec les LLMs. Il vise à surmonter les limites des LLMs en organisant le texte hiérarchiquement et en utilisant un rapport signal/bruit (SNR) pour se concentrer sur les caractéristiques sémantiques de grande valeur.

27
RESEARCHarXiv CS.CL·05/05/2026

Psychologically Potent, Computationally Invisible: LLMs Generate Social-Comparison Triggers They Fail to Detect

Cet article présente XHS-SCoRE, un benchmark basé sur les lecteurs pour détecter si un message Xiaohongshu (RedNote) purement textuel déclenche une comparaison sociale ascendante, descendante ou neutre. L'étude révèle une incohérence constante entre la fluidité de génération des LLM et leur capacité de détection fiable, indiquant que les LLM génèrent des déclencheurs de comparaison sociale qu'ils ne parviennent pas à détecter de manière robuste.

27
RESEARCHarXiv CS.CL·05/05/2026

Controlled Paraphrase Geometry in Sentence Embedding Space: Local Manifold Modeling and Latent Probing

Cet article étudie la géométrie locale des nuages d'intégration induits par des classes contrôlées de phrases sémantiquement proches. Les auteurs introduisent un schéma de modélisation géométrique locale et une procédure de sondage latent pour l'analyse de l'espace de représentation et la modélisation des variétés locales.

27
RESEARCHarXiv CS.CL·10/04/2026

TR-EduVSum: A Turkish-Focused Dataset and Consensus Framework for Educational Video Summarization

Este estudo apresenta o dataset TR-EduVSum, focado em vídeos educacionais turcos, e propõe o método AutoMUP. Este método gera resumos padrão-ouro de forma automática e reproduzível a partir de múltiplos resumos humanos, usando agrupamento de unidades de significado e modelagem estatística de consenso.

27
RESEARCHarXiv CS.CL·05/05/2026

Compared to What? Baselines and Metrics for Counterfactual Prompting

Ce travail soutient que les effets observés du "prompting contrefactuel" dans les LLM ne peuvent être attribués à un facteur ciblé sans tenir compte des modifications de texte préservant le sens qui établissent la sensibilité générale du modèle. La recherche montre que les taux d'inversion de prédiction lors du changement chirurgical du sexe du patient sont statistiquement indiscernables des taux induits par de simples paraphrases, suggérant qu'une sensibilité particulière au sexe du patient ne peut être conclue.

27
RESEARCHarXiv CS.CL·27/04/2026

An End-to-End Ukrainian RAG for Local Deployment. Optimized Hybrid Search and Lightweight Generation

Cet article présente un système RAG (Génération Augmentée par Récupération) très efficace pour les questions-réponses sur des documents ukrainiens, classé 2ème de la UNLP 2026 Shared Task. Il utilise une recherche hybride personnalisée et un modèle de langage ukrainien optimisé et compressé pour un déploiement local de haute qualité sur du matériel à ressources contraintes.

27
RESEARCHarXiv CS.CL·09/04/2026

Beyond Facts: Benchmarking Distributional Reading Comprehension in Large Language Models

Este artigo introduz o Text2DistBench, um novo benchmark para avaliar a capacidade de LLMs inferirem conhecimento distribucional a partir de linguagem natural. Diferente dos benchmarks tradicionais, ele foca em tarefas do mundo real, como estimar proporções de sentimentos ou identificar tópicos frequentes em coleções de texto como comentários do YouTube.

27
RESEARCHarXiv CS.CL·30/04/2026

MATH-PT: A Math Reasoning Benchmark for European and Brazilian Portuguese

Cet article présente MATH-PT, un nouvel ensemble de données de 1 729 problèmes mathématiques en portugais européen et brésilien, pour corriger le biais linguistique dans l'évaluation du raisonnement mathématique des LLM. Le benchmark révèle que les modèles de pointe obtiennent de bons résultats sur les questions à choix multiples, mais que leurs performances diminuent pour les questions ouvertes.

27
RESEARCHarXiv CS.CL·01/05/2026

BatteryPass-12K: The First Dataset for the Novel Digital Battery Passport Conformance Task

Cet article présente BatteryPass-12K, le premier ensemble de données public pour la nouvelle tâche de classification de conformité des passeports numériques de batteries (DBP), répondant à un besoin crucial avant la réglementation de l'UE. Il évalue 22 modèles de langage, montrant que les modèles "pensants" comme GPT-5.4 obtiennent les meilleures performances, et que les exemples few-shot améliorent significativement les résultats.

27
RESEARCHarXiv CS.CL·16/04/2026

A Proactive EMR Assistant for Doctor-Patient Dialogue: Streaming ASR, Belief Stabilization, and Preliminary Controlled Evaluation

Cet article présente un assistant EMR proactif pour le dialogue médecin-patient, qui surmonte les systèmes passifs en intégrant l'ASR en streaming, la stabilisation des croyances et la planification d'actions. Le système a été évalué dans un cadre contrôlé préliminaire, atteignant un F1 de 0.84 et un Recall@5 de 0.87.

27
RESEARCHarXiv CS.CL·30/04/2026

CogRAG+: Cognitive-Level Guided Diagnosis and Remediation of Memory and Reasoning Deficiencies in Professional Exam QA

CogRAG+ est un cadre sans entraînement conçu pour diagnostiquer et remédier aux lacunes de mémoire et de raisonnement des grands modèles linguistiques dans les examens professionnels. Il découple et aligne la récupération et le raisonnement avec les hiérarchies cognitives humaines, employant le Reinforced Retrieval et le Constrained Reasoning pour améliorer la précision et la cohérence.

27