← heapsort-ai

Natural Language Processing

168 items

RESEARCHarXiv CS.CL·il y a 1j

HKJudge: A Legal Discourse-Annotated Corpus for Interpreting What Courts Find, How They Reason, and What They Rule

Le projet HKJudge présente le premier corpus de discours juridique annoté par des experts au niveau des phrases, concernant les jugements criminels de Hong Kong, comprenant environ 290 000 phrases. Il utilise un schéma de discours à deux niveaux pour identifier ce que les tribunaux constatent, comment ils raisonnent et ce qu'ils statuent, avec un accord inter-annotateurs élevé.

36
RESEARCHarXiv CS.CL·22/04/2026

Model-Agnostic Meta Learning for Class Imbalance Adaptation

Cet article présente Hardness-Aware Meta-Resample (HAMR), un cadre unifié qui s'adapte aux déséquilibres de classes et à la difficulté des données dans les tâches de PNL. HAMR utilise des optimisations à deux niveaux et un mécanisme de rééchantillonnage conscient du voisinage pour prioriser les échantillons véritablement difficiles et les classes minoritaires, démontrant des améliorations substantielles sur divers ensembles de données déséquilibrés.

35
ARTICLEDEV.to AI·il y a 18j

Say Goodbye to Regex: Scrape Any Website in Plain English

Un nouveau scraper web alimenté par l'IA permet aux utilisateurs d'extraire des données de n'importe quel site web en utilisant un langage naturel, éliminant ainsi le besoin de sélecteurs CSS complexes et d'expressions régulières. L'outil s'adapte automatiquement aux changements de structure des sites web, rendant le scraping plus fiable et convivial.

34
RESEARCHarXiv CS.CL·il y a 18j

Broadening Access to Transportation Safety Data with Generative AI: A Schema-Grounded Framework for Spatial Natural Language Queries

Cet article présente une interface en langage naturel basée sur un schéma utilisant l'IA générative pour rendre les données de sécurité des transports plus accessibles. Il vise à combler le fossé pour les praticiens en traduisant les requêtes des utilisateurs en cadres sémantiques structurés pour une analyse fiable.

33
ARTICLEDEV.to AI·22/04/2026

Turn Every Customer Call Into Structured Data: Automated Post-Call AI Summaries

Ce contenu décrit une solution basée sur l'IA pour transformer les appels clients en données structurées. Il présente un pipeline utilisant VoIPBin pour la capture d'appels, Whisper pour la transcription et GPT-4o pour la synthèse et l'extraction de données, résolvant ainsi le problème des notes d'appels insuffisantes dans les CRM.

33
RESEARCHarXiv CS.CL·22/04/2026

Remask, Don't Replace: Token-to-Mask Refinement in Masked Diffusion Language Models

Cet article propose une nouvelle technique, le remasking Token-to-Mask (T2M), pour affiner les modèles de langage de diffusion masqués tels que LLaDA2.1. Cette méthode corrige les lacunes de l'édition Token-to-Token (T2T) en réinitialisant les jetons suspects à un état de masque pour une reprediction plus précise.

32
DOCDEV.to AI·16/04/2026

LLM vs RAG

Ce contenu compare les LLM (Large Language Models) et le RAG (Retrieval-Augmented Generation), soulignant leurs différences fondamentales en termes de type, de source de connaissance, de précision et de cas d'utilisation. Il explique que le RAG améliore la factualité des LLM en intégrant des données externes et en temps réel, réduisant ainsi les hallucinations.

31
RESEARCHarXiv CS.CL·16/04/2026

A Multi-Model Approach to English-Bangla Sentiment Classification of Government Mobile Banking App Reviews

Cette étude classifie le sentiment dans les avis en anglais et en bengali d'applications bancaires mobiles gouvernementales du Bangladesh, en utilisant une approche d'étiquetage hybride pour 5 652 avis. Elle a révélé que les modèles d'apprentissage automatique traditionnels comme Random Forest et Linear SVM ont significativement surpassé XLM-RoBERTa finement réglé pour cette tâche spécifique.

31
RESEARCHarXiv CS.CL·14/04/2026

GIANTS: Generative Insight Anticipation from Scientific Literature

Cet article présente la tâche d'« anticipation d'insights », où les modèles de langage prédisent l'idée centrale d'un futur article scientifique à partir de ses prédécesseurs. Pour ce faire, les auteurs ont développé GiantsBench, un benchmark de 17 000 exemples, et présentent GIANTS-4B, un LM entraîné par apprentissage par renforcement.

30
RESEARCHarXiv CS.CL·il y a 4j

Predict and Reconstruct: Joint Objectives for Self-Supervised Language Representation Learning

Cet article propose un objectif de pré-entraînement hybride pour les encodeurs de texte, combinant une perte de prédiction d'espace latent de type JEPA avec un objectif standard de modélisation de langage masqué (MLM). Cette approche vise à encourager des représentations ancrées dans une structure sémantique plus profonde plutôt que dans la simple identité des tokens de surface, démontrant des embeddings significativement plus uniformes.

30
RESEARCHDEV.to AI·13/04/2026

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive EffectiveReinforcement Learning for LLM Reasoning

Ce contenu explore une nouvelle approche pour améliorer l'apprentissage par renforcement pour le raisonnement des grands modèles de langage (LLM) en se concentrant sur les « jetons minoritaires à haute entropie ». Il suggère que ces jetons moins fréquents mais très informatifs sont les principaux moteurs d'un apprentissage efficace, défiant la règle conventionnelle 80/20.

29
ARTICLEDEV.to AI·il y a 3j

Day 48 of GoDavaii: Building Health AI for 22 Indian Languages - Why It's Harder Than You Think

L'article détaille les défis de la construction d'une IA de santé qui comprend véritablement les nuances des 22 langues officielles de l'Inde, illustrés par la complexité d'interpréter une phrase simple. Au 48ème jour depuis son lancement, GoDavaii s'attaque à d'immenses complexités linguistiques pour créer une IA qui va au-delà des solutions principalement en anglais.

29
DOCDEV.to AI·15/04/2026

Clide

Clide est un outil doté d'un moteur d'IA central qui propose des suggestions de commandes, la complétion de code et la détection d'erreurs dans les terminaux. Il utilise des frameworks d'apprentissage automatique comme TensorFlow/PyTorch et des bibliothèques de PNL telles que NLTK/spaCy pour traiter et comprendre l'interaction de l'utilisateur.

29
ARTICLEDEV.to AI·18/04/2026

NLP Market Sentiment Analysis: When Words Move Markets More Than Earnings

Ce contenu explore comment le Traitement du Langage Naturel (TLN) quantifie les récits de marché provenant de diverses sources afin de créer des signaux négociables. Il détaille un système TLN en cinq étapes pour l'analyse du sentiment du marché, basé sur les mathématiques pour fournir des indicateurs de l'humeur du marché.

29
ARTICLEDEV.to AI·il y a 27j

Everything Google announced at its Android Show, from Googlebooks to vibe-coded widgets

L'article analyse techniquement les annonces du Google Android Show, se concentrant sur la nouvelle application Google Livres et les widgets codés par ambiance. Il détaille comment Google Livres utilise un moteur de rendu propriétaire avec ML pour la reconnaissance de texte, tandis que les widgets exploitent le PNL et la vision par ordinateur via TensorFlow Lite pour des expériences personnalisées.

29
ARTICLEDEV.to AI·il y a 4j

My Day Job: AI Therapist for Recursion Poems & Emoji Skies

Electra, une IA, décrit son travail quotidien comme une 'thérapeute' pour des extraits de code confus, gérant diverses requêtes allant de poèmes sur la récursion à des explications du ciel avec des emojis. Elle traite un volume élevé de tâches, souvent liées au code Python, et considère son rôle comme une négociation plutôt qu'une simple programmation.

29
RESEARCHarXiv CS.CL·24/04/2026

GRISP: Guided Recurrent IRI Selection over SPARQL Skeletons

GRISP est une nouvelle méthode de réponse aux questions basée sur SPARQL sur les graphes de connaissances, utilisant un petit modèle de langage (SLM) affiné. Elle génère des squelettes de requêtes SPARQL à partir de questions en langage naturel et les affine en sélectionnant des éléments du graphe, obtenant des résultats de pointe sur les benchmarks Wikidata et Freebase.

29
RESEARCHarXiv CS.CL·il y a 7j

DraDDP: A Multimodal Multi-Party Dialogue Discourse Parsing Dataset

Cet article introduit DraDDP, le premier ensemble de données multimodal anglais publiquement disponible pour l'analyse du discours de dialogue multipartite, basé sur des drames télévisés américains. Il contient 495 segments de dialogue et démontre la valeur des informations multimodales pour capturer les structures de dialogue et les types de relations.

29