← heapsort-ai

Natural Language Processing

168 items

RESEARCHarXiv CS.CL·il y a 7j

CSRP: Chain-of-Thought Reasoning for Chinese Text Correction via Reinforcement Learning with Efficiency-Aware Rewards

Cet article propose CSRP, un cadre en trois étapes pour la correction des erreurs grammaticales chinoises (CGEC) utilisant des grands modèles de langage (LLM). CSRP aborde les défis des modèles génériques et l'optimisation des métriques avec un pré-entraînement continu, un SFT Chain-of-Thought et une optimisation de politique avec des récompenses sensibles à l'efficacité qui pénalisent les modifications inutiles, atteignant des performances de pointe sur le benchmark NACGEC.

27
RESEARCHarXiv CS.AI·il y a 28j

SkillLens: Adaptive Multi-Granularity Skill Reuse for Cost-Efficient LLM Agents

SkillLens est un cadre hiérarchique d'évolution des compétences pour les agents LLM qui organise et réutilise les compétences à granularité mixte. Cela permet aux agents de réutiliser directement les sous-compétences compatibles tout en adaptant uniquement les parties localement incompatibles, optimisant les coûts et la pertinence.

27
RESEARCHarXiv CS.CL·il y a 25j

Merging Methods for Multilingual Knowledge Editing for Large Language Models: An Empirical Odyssey

Cet article étudie l'efficacité des méthodes de fusion de vecteurs pour l'édition de connaissances multilingues (MKE) dans les Grands Modèles de Langage, en se concentrant sur la réduction des interférences entre les modifications spécifiques à chaque langue. Évaluant six variantes de fusion avec deux LLM, deux méthodes d'édition et 12 langues sur le benchmark MzsRE, il conclut que la sommation vectorielle avec covariance partagée est la stratégie globale la plus fiable.

27
RESEARCHarXiv CS.CL·il y a 26j

TimelineReasoner: Advancing Timeline Summarization with Large Reasoning Models

TimelineReasoner est un nouveau cadre qui exploite les Grands Modèles de Raisonnement (LRMs) pour faire progresser la synthèse chronologique, allant au-delà de la génération passive des Grands Modèles de Langage (LLMs). Il utilise un processus actif en deux étapes, Cognition Globale et Exploration Détaillée, pour extraire et affiner activement les chronologies structurées à partir de contenus de presse en ligne non structurés.

27
RESEARCHarXiv CS.CL·il y a 22j

DiscoExplorer: An Open Interface for the Study of Multilingual Discourse Relations

DiscoExplorer présente une interface web open source conçue pour faciliter l'étude et la comparaison interlinguistique des relations de discours dans 16 langues. Cet outil répond à la complexité des données pertinentes et au manque d'interfaces accessibles en linguistique computationnelle, en offrant des fonctionnalités de requête, de recherche et de visualisation.

27
RESEARCHarXiv CS.AI·il y a 26j

State-Centric Decision Process

Le Processus de Décision Centré sur l'État (SDP) est un nouveau cadre qui pallie le manque de structure d'exécution dans les environnements linguistiques, tels que les navigateurs web, qui émettent du texte brut plutôt que des états. Il permet à un agent de construire les entrées MDP manquantes, comme l'espace d'états et les transitions certifiées, en agissant et en vérifiant les observations par rapport à des prédicats en langage naturel.

27
RESEARCHarXiv CS.CL·il y a 18j

Residual Skill Optimization for Text-to-SQL Ensembles

DivSkill-SQL présente un cadre d'optimisation des compétences résiduelles pour construire des ensembles Text-to-SQL complémentaires, améliorant la précision en ciblant les contributions marginales à Pass@K. Il atteint des gains de précision significatifs sur Spider2-Lite pour Snowflake et BigQuery par rapport aux bases de référence d'ensemble existantes.

27
RESEARCHarXiv CS.CL·il y a 14j

Raon-Speech Technical Report

Raon-Speech est un modèle de langage vocal (SpeechLM) de 9 milliards de paramètres très performant pour la compréhension, la réponse et la génération de la parole en anglais et en coréen, obtenant d'excellents résultats sur 42 benchmarks. Il transforme avec succès un LLM pré-entraîné en un SpeechLM tout en préservant de solides capacités textuelles grâce à des étapes d'entraînement spécifiques.

27
RESEARCHarXiv CS.CL·il y a 15j

Knowledge Distillation for Low-Resource Open-source Text-to-SQL Model

Cet article propose un cadre Text-to-SQL conscient des connaissances pour convertir des questions en langage naturel en requêtes SQL exécutables, même dans des environnements à faibles ressources. Il aborde les défis tels que la rareté des données annotées et les définitions de schémas opaques en injectant des connaissances spécifiques à la tâche dans l'entraînement et l'inférence.

27
RESEARCHarXiv CS.AI·il y a 15j

PathCal: State-Aware Reflection-Marker Calibration for Efficient Reasoning

Cet article de recherche présente 'PathCal', qui étudie les rôles fonctionnels distincts et le moment d'apparition des marqueurs de réflexion dans les trajectoires de Chain-of-Thought des Large Reasoning Language Models. Il révèle que des marqueurs comme 'wait' ou 'but' diffèrent significativement dans leur impact sur la précision et la longueur de la génération, remettant en question les approches précédentes.

27
RESEARCHarXiv CS.CL·il y a 15j

Query-Adaptive Semantic Chunking for Retrieval-Augmented Generation: A Dynamic Strategy with Contextual Window Expansion

Cet article présente le Query-Adaptive Semantic Chunking (QASC), une stratégie dynamique pour les systèmes de Génération Augmentée par Récupération (RAG) qui intègre les requêtes de l'utilisateur dans la segmentation des documents. Le QASC utilise la notation de similarité cosinus, l'expansion de fenêtre contextuelle et l'agrégation de scores au niveau du chunk pour optimiser la récupération de contexte, palliant les limites des méthodes de chunking fixes.

27
RESEARCHarXiv CS.CL·il y a 6j

Linear Probes Detect Task Format, Not Reasoning Mode in Language Model Hidden States

Cet article révèle que les sondes linéaires, souvent utilisées pour identifier des représentations de raisonnement distinctes dans les états cachés des LLM, détectent en fait le format de la tâche plutôt que les modes de raisonnement. La haute précision observée sur les benchmarks avec Qwen3-14B a disparu en contrôlant les variables de format, suggérant un raisonnement largement partagé et non fonctionnellement lié à la géométrie de l'état caché.

27
RESEARCHarXiv CS.CL·il y a 8j

When English Rewrites Local Knowledge: Global Narrative Dominance in Large Language Models

Cet article de recherche examine la dominance narrative globale dans les Grands Modèles Linguistiques (LLMs), où les connaissances culturelles locales sont souvent éclipsées par les récits mondiaux. Il introduit l'ensemble de données CulturalNB pour les contextes culturels bengalis et démontre que les questions posées en anglais augmentent la substitution globale et le cadrage institutionnel, réduisant la couverture des perspectives locales.

27
RESEARCHarXiv CS.AI·il y a 15j

NeuroNL2LTL: A Neurosymbolic Framework for Natural Language Translation of Linear Temporal Logic

NeuroNL2LTL est une architecture neurosymbolique unifiant la traduction apprise et la vérification formelle pour traduire le langage naturel en Logique Temporelle Linéaire. Elle utilise un entraînement avec vérificateur dans la boucle, où les résultats de vérification servent de signaux de récompense pour l'apprentissage par renforcement, optimisant la correction formelle.

27
RESEARCHarXiv CS.AI·il y a 12j

Soro: A Lightweight Foundation Model and Chatbot for Tajik

Soro est une famille de grands modèles de langage conversationnels (LLMs) spécialisés en tadjik, conçus pour un déploiement au Tadjikistan avec des contraintes de calcul. Développé à partir de checkpoints Gemma 3 et pré-entraîné sur un corpus tadjik de 1,9 milliard de tokens, il surpasse significativement les modèles de base sur de nouveaux benchmarks tadjiks.

27
ARTICLEDEV.to AI·il y a 25j

Helping ChatGPT better recognize context in sensitive conversations

Cette analyse technique explore l'amélioration de la capacité de ChatGPT à reconnaître le contexte dans les conversations sensibles, ce qui est crucial pour des réponses précises et empathiques. Elle souligne les limitations actuelles, telles que le manque de connaissances spécifiques au domaine et une compréhension insuffisante des nuances, visant à trouver des solutions techniques à ces défis.

27
DOCDEV.to AI·26/04/2026

GPT-5.5 System Card

La carte système GPT-5.5 d'OpenAI présente un modèle de langage basé sur les transformeurs, s'appuyant sur GPT-3 avec un accent sur la mise à l'échelle et le réglage fin. Son architecture est principalement de type décodeur uniquement, utilisant des mécanismes d'auto-attention et des réseaux feed-forward.

27