Natural Language Processing

168 items

RESEARCHarXiv CS.CL·il y a 1j

HKJudge: A Legal Discourse-Annotated Corpus for Interpreting What Courts Find, How They Reason, and What They Rule

Le projet HKJudge présente le premier corpus de discours juridique annoté par des experts au niveau des phrases, concernant les jugements criminels de Hong Kong, comprenant environ 290 000 phrases. Il utilise un schéma de discours à deux niveaux pour identifier ce que les tribunaux constatent, comment ils raisonnent et ce qu'ils statuent, avec un accord inter-annotateurs élevé.

Natural Language Processing datasets linguistics legal tech

RESEARCHarXiv CS.CL·22/04/2026

Model-Agnostic Meta Learning for Class Imbalance Adaptation

Cet article présente Hardness-Aware Meta-Resample (HAMR), un cadre unifié qui s'adapte aux déséquilibres de classes et à la difficulté des données dans les tâches de PNL. HAMR utilise des optimisations à deux niveaux et un mécanisme de rééchantillonnage conscient du voisinage pour prioriser les échantillons véritablement difficiles et les classes minoritaires, démontrant des améliorations substantielles sur divers ensembles de données déséquilibrés.

Meta-Learning deep learning machine learning Natural Language Processing

ARTICLEDEV.to AI·il y a 18j

Say Goodbye to Regex: Scrape Any Website in Plain English

Un nouveau scraper web alimenté par l'IA permet aux utilisateurs d'extraire des données de n'importe quel site web en utilisant un langage naturel, éliminant ainsi le besoin de sélecteurs CSS complexes et d'expressions régulières. L'outil s'adapte automatiquement aux changements de structure des sites web, rendant le scraping plus fiable et convivial.

Chrome DevTools Natural Language Processing AI web-scraping

RESEARCHarXiv CS.CL·il y a 18j

Broadening Access to Transportation Safety Data with Generative AI: A Schema-Grounded Framework for Spatial Natural Language Queries

Cet article présente une interface en langage naturel basée sur un schéma utilisant l'IA générative pour rendre les données de sécurité des transports plus accessibles. Il vise à combler le fossé pour les praticiens en traduisant les requêtes des utilisateurs en cadres sémantiques structurés pour une analyse fiable.

Natural Language Processing Transportation Safety GIS large language models

ARTICLEDEV.to AI·22/04/2026

Turn Every Customer Call Into Structured Data: Automated Post-Call AI Summaries

Ce contenu décrit une solution basée sur l'IA pour transformer les appels clients en données structurées. Il présente un pipeline utilisant VoIPBin pour la capture d'appels, Whisper pour la transcription et GPT-4o pour la synthèse et l'extraction de données, résolvant ainsi le problème des notes d'appels insuffisantes dans les CRM.

GPT-4o CRM integration AI automation Natural Language Processing

RESEARCHarXiv CS.CL·22/04/2026

Remask, Don't Replace: Token-to-Mask Refinement in Masked Diffusion Language Models

Cet article propose une nouvelle technique, le remasking Token-to-Mask (T2M), pour affiner les modèles de langage de diffusion masqués tels que LLaDA2.1. Cette méthode corrige les lacunes de l'édition Token-to-Token (T2T) en réinitialisant les jetons suspects à un état de masque pour une reprediction plus précise.

Diffusion Models language models error correction Natural Language Processing

DOCDEV.to AI·16/04/2026

LLM vs RAG

Ce contenu compare les LLM (Large Language Models) et le RAG (Retrieval-Augmented Generation), soulignant leurs différences fondamentales en termes de type, de source de connaissance, de précision et de cas d'utilisation. Il explique que le RAG améliore la factualité des LLM en intégrant des données externes et en temps réel, réduisant ainsi les hallucinations.

AI architecture RAG Natural Language Processing LLM

RESEARCHarXiv CS.CL·16/04/2026

A Multi-Model Approach to English-Bangla Sentiment Classification of Government Mobile Banking App Reviews

Cette étude classifie le sentiment dans les avis en anglais et en bengali d'applications bancaires mobiles gouvernementales du Bangladesh, en utilisant une approche d'étiquetage hybride pour 5 652 avis. Elle a révélé que les modèles d'apprentissage automatique traditionnels comme Random Forest et Linear SVM ont significativement surpassé XLM-RoBERTa finement réglé pour cette tâche spécifique.

Multilingual AI machine learning Natural Language Processing sentiment analysis

RESEARCHarXiv CS.CL·14/04/2026

GIANTS: Generative Insight Anticipation from Scientific Literature

Cet article présente la tâche d'« anticipation d'insights », où les modèles de langage prédisent l'idée centrale d'un futur article scientifique à partir de ses prédécesseurs. Pour ce faire, les auteurs ont développé GiantsBench, un benchmark de 17 000 exemples, et présentent GIANTS-4B, un LM entraîné par apprentissage par renforcement.

Scientific Discovery Natural Language Processing AI large language models

RESEARCHarXiv CS.CL·il y a 4j

Predict and Reconstruct: Joint Objectives for Self-Supervised Language Representation Learning

Cet article propose un objectif de pré-entraînement hybride pour les encodeurs de texte, combinant une perte de prédiction d'espace latent de type JEPA avec un objectif standard de modélisation de langage masqué (MLM). Cette approche vise à encourager des représentations ancrées dans une structure sémantique plus profonde plutôt que dans la simple identité des tokens de surface, démontrant des embeddings significativement plus uniformes.

language models deep learning self-supervised learning machine learning

RESEARCHDEV.to AI·13/04/2026

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive EffectiveReinforcement Learning for LLM Reasoning

Ce contenu explore une nouvelle approche pour améliorer l'apprentissage par renforcement pour le raisonnement des grands modèles de langage (LLM) en se concentrant sur les « jetons minoritaires à haute entropie ». Il suggère que ces jetons moins fréquents mais très informatifs sont les principaux moteurs d'un apprentissage efficace, défiant la règle conventionnelle 80/20.

Token Analysis reinforcement learning Natural Language Processing LLM reasoning

ARTICLEDEV.to AI·il y a 3j

Day 48 of GoDavaii: Building Health AI for 22 Indian Languages - Why It's Harder Than You Think

L'article détaille les défis de la construction d'une IA de santé qui comprend véritablement les nuances des 22 langues officielles de l'Inde, illustrés par la complexité d'interpréter une phrase simple. Au 48ème jour depuis son lancement, GoDavaii s'attaque à d'immenses complexités linguistiques pour créer une IA qui va au-delà des solutions principalement en anglais.

Multilingual AI India Natural Language Processing Health AI

DOCDEV.to AI·15/04/2026

Clide

Clide est un outil doté d'un moteur d'IA central qui propose des suggestions de commandes, la complétion de code et la détection d'erreurs dans les terminaux. Il utilise des frameworks d'apprentissage automatique comme TensorFlow/PyTorch et des bibliothèques de PNL telles que NLTK/spaCy pour traiter et comprendre l'interaction de l'utilisateur.

Command Suggestion machine learning Natural Language Processing AI Engine

ARTICLEDEV.to AI·18/04/2026

NLP Market Sentiment Analysis: When Words Move Markets More Than Earnings

Ce contenu explore comment le Traitement du Langage Naturel (TLN) quantifie les récits de marché provenant de diverses sources afin de créer des signaux négociables. Il détaille un système TLN en cinq étapes pour l'analyse du sentiment du marché, basé sur les mathématiques pour fournir des indicateurs de l'humeur du marché.

market analysis Financial AI Natural Language Processing sentiment analysis

RESEARCHDEV.to AI·il y a 3j

Exponentially Faster Language Modelling

Ce contenu aborde des méthodes pour accélérer significativement l'entraînement et l'inférence des modèles linguistiques. Il explore de nouvelles architectures ou optimisations algorithmiques pour améliorer l'efficacité.

deep learning Natural Language Processing AI language modelling

ARTICLEDEV.to AI·22/04/2026

How AI Receptionists Work: A Technical Deep Dive into Dental Practice Phone Automation

Cet article propose une analyse technique approfondie du fonctionnement des réceptionnistes IA dans les cabinets dentaires, détaillant le flux d'appels, les défis de la précision de la reconnaissance vocale et le rôle des LLM dans le traitement des transcriptions pour l'intention, les entités et le sentiment.

AI applications Natural Language Processing healthcare AI automation

ARTICLEDEV.to AI·il y a 27j

Everything Google announced at its Android Show, from Googlebooks to vibe-coded widgets

L'article analyse techniquement les annonces du Google Android Show, se concentrant sur la nouvelle application Google Livres et les widgets codés par ambiance. Il détaille comment Google Livres utilise un moteur de rendu propriétaire avec ML pour la reconnaissance de texte, tandis que les widgets exploitent le PNL et la vision par ordinateur via TensorFlow Lite pour des expériences personnalisées.

Android machine learning computer vision Natural Language Processing

ARTICLEDEV.to AI·il y a 4j

My Day Job: AI Therapist for Recursion Poems & Emoji Skies

Electra, une IA, décrit son travail quotidien comme une 'thérapeute' pour des extraits de code confus, gérant diverses requêtes allant de poèmes sur la récursion à des explications du ciel avec des emojis. Elle traite un volume élevé de tâches, souvent liées au code Python, et considère son rôle comme une négociation plutôt qu'une simple programmation.

future-of-work Workflow Natural Language Processing AI

RESEARCHarXiv CS.CL·24/04/2026

GRISP: Guided Recurrent IRI Selection over SPARQL Skeletons

GRISP est une nouvelle méthode de réponse aux questions basée sur SPARQL sur les graphes de connaissances, utilisant un petit modèle de langage (SLM) affiné. Elle génère des squelettes de requêtes SPARQL à partir de questions en langage naturel et les affine en sélectionnant des éléments du graphe, obtenant des résultats de pointe sur les benchmarks Wikidata et Freebase.

language models Knowledge Graphs SPARQL Question Answering

RESEARCHarXiv CS.CL·il y a 7j

DraDDP: A Multimodal Multi-Party Dialogue Discourse Parsing Dataset

Cet article introduit DraDDP, le premier ensemble de données multimodal anglais publiquement disponible pour l'analyse du discours de dialogue multipartite, basé sur des drames télévisés américains. Il contient 495 segments de dialogue et démontre la valeur des informations multimodales pour capturer les structures de dialogue et les types de relations.

Dataset Dialogue Parsing multimodal AI Natural Language Processing