← heapsort-ai

LLMs

722 items

RESEARCHarXiv CS.CL·24/04/2026

TRACES: Tagging Reasoning Steps for Adaptive Cost-Efficient Early-Stopping

Cet article présente TRACES, un framework léger conçu pour optimiser les Modèles de Raisonnement Linguistique (LRMs) en étiquetant les étapes de raisonnement en temps réel. Il permet un arrêt précoce adaptatif et rentable des inférences LRM, s'attaquant à leur inefficacité actuelle et à la sur-génération d'étapes de vérification.

27
RESEARCHarXiv CS.CL·24/04/2026

AFRILANGTUTOR: Advancing Language Tutoring and Culture Education in Low-Resource Languages with Large Language Models

Cet article présente AFRILANGDICT, une collection d'entrées de dictionnaire de langues africaines-anglais, et AFRILANGEDU, un ensemble de données. Ces ressources sont utilisées pour entraîner des modèles d'IA, appelés AFRILANGTUTOR, pour le tutorat linguistique dans les langues africaines à faibles ressources, comblant ainsi le manque de systèmes d'IA pour les langues locales sur le continent africain.

27
RESEARCHarXiv CS.CL·04/05/2026

Cultural Benchmarking of LLMs in Standard and Dialectal Arabic Dialogues

Une nouvelle recherche comble le manque d'évaluation du raisonnement culturel dans les LLM en introduisant ArabCulture-Dialogue, un ensemble de données conversationnelles culturellement ancré couvrant 13 pays arabophones. Les expériences montrent que les modèles sont moins performants sur les tâches de raisonnement culturel, de traduction et de génération dans des contextes dialectaux par rapport à l'arabe standard moderne.

27
RESEARCHarXiv CS.AI·il y a 18j

MindLoom: Composing Thought Modes for Frontier-Level Reasoning Data Synthesis

MindLoom est un cadre pour synthétiser des données de raisonnement de niveau avancé, s'attaquant à la diversité limitée et au contrôle instable de la difficulté des méthodes existantes. Il décompose les solutions de problèmes en "chaînes de modes de pensée" et entraîne un modèle de récupération pour guider le processus de raisonnement.

27
RESEARCHarXiv CS.LG·il y a 18j

Harnesses for Inference-Time Alignment over Execution Trajectories

Cette recherche étudie l'ingénierie des harnais comme technique d'inférence pour les agents de grands modèles linguistiques (LLM), visant à améliorer les performances à long terme par la décomposition des tâches et l'exécution guidée. Elle quantifie l'impact des éléments de conception tels que la granularité du flux de travail et l'orientation sur les performances, révélant des modes de défaillance courants comme la surdécomposition et l'exécution hallucinatoire.

27
RESEARCHarXiv CS.CL·21/04/2026

Multimodal Claim Extraction for Fact-Checking

Ce travail introduit le premier benchmark pour l'extraction de revendications multimodales à partir de publications sur les réseaux sociaux, essentiel pour la vérification automatisée des faits. Il évalue les MLLM de pointe et propose MICE, un cadre conscient de l'intention, pour relever les défis de la modélisation de l'intention rhétorique et des indices contextuels.

27
RESEARCHarXiv CS.CL·21/04/2026

LiFT: Does Instruction Fine-Tuning Improve In-Context Learning for Longitudinal Modelling by Large Language Models?

LiFT est un nouveau cadre de réglage fin par instruction visant à améliorer l'apprentissage en contexte des LLM pour les tâches PNL longitudinales, qui nécessitent un raisonnement sur des textes ordonnés temporellement. Il utilise un curriculum augmentant progressivement la difficulté temporelle, intégrant une structure d'apprentissage par quelques exemples et un conditionnement temporel, surpassant constamment les modèles de base sur divers ensembles de données et tailles de paramètres.

27
RESEARCHarXiv CS.CL·il y a 26j

PEML: Parameter-efficient Multi-Task Learning with Optimized Continuous Prompts

Cet article introduit PEML, une méthode d'apprentissage multi-tâches économe en paramètres avec des prompts continus optimisés pour les grands modèles de langage. Il vise à pallier les lacunes des méthodes PEFT existantes comme LoRA et Prefix Tuning, permettant un ajustement fin plus efficace pour plusieurs tâches et favorisant la consolidation des ressources.

27
RESEARCHarXiv CS.CL·il y a 26j

Derivation Prompting: A Logic-Based Method for Improving Retrieval-Augmented Generation

Cet article introduit le Derivation Prompting, une nouvelle technique de prompting pour le framework Retrieval-Augmented Generation (RAG). La méthode vise à réduire les hallucinations et le raisonnement erroné des Large Language Models (LLMs) en appliquant systématiquement des règles prédéfinies pour dériver des conclusions. Une étude de cas a montré une réduction significative des réponses inacceptables par rapport aux méthodes RAG traditionnelles.

27
RESEARCHarXiv CS.LG·24/04/2026

Reinforcing privacy reasoning in LLMs via normative simulacra from fiction

Cet article propose une nouvelle méthode pour renforcer le raisonnement de confidentialité des LLM en extrayant des simulacres normatifs de romans de fiction. L'approche consiste à affiner les LLM via l'apprentissage supervisé suivi par l'apprentissage par renforcement GRPO, en utilisant une fonction de récompense composite pour aligner la gestion de l'information avec les attentes de confidentialité des utilisateurs.

27
RESEARCHarXiv CS.CL·07/05/2026

Adapt to Thrive! Adaptive Power-Mean Policy Optimization for Improved LLM Reasoning

Cette recherche présente l'Optimisation Adaptative de Politique de Moyenne de Puissance (APMPO) pour améliorer les capacités de raisonnement des Grands Modèles Linguistiques (LLMs) via RLVR. APMPO combine un objectif de moyenne de puissance généralisée et un écrêtage adaptatif par rétroaction pour optimiser la dynamique d'apprentissage et les performances.

27
RESEARCHarXiv CS.CL·11/05/2026

Can LLMs Take Retrieved Information with a Grain of Salt?

Cet article évalue la capacité des grands modèles de langage (LLM) à adapter leurs réponses à la certitude des informations récupérées, révélant des limitations systématiques. Il propose une stratégie d'interaction combinant des rappels préalables, une recalibration de la certitude et une simplification du contexte pour améliorer la fiabilité des LLM. Cette approche réduit les erreurs d'obéissance de 25% sans modifier les poids du modèle.

27
RESEARCHarXiv CS.CL·24/04/2026

DWTSumm: Discrete Wavelet Transform for Document Summarization

Cette recherche propose un cadre basé sur la Transformée en Ondelettes Discrète (DWT) pour améliorer la synthèse de documents, notamment pour les textes longs et spécifiques à un domaine où les LLM rencontrent des difficultés. La méthode crée des représentations compactes qui améliorent la similarité sémantique, l'ancrage et la cohérence factuelle par rapport à une base GPT-4o.

27
RESEARCHarXiv CS.CL·11/05/2026

Reflections and New Directions for Human-Centered Large Language Models

Ce travail présente un cadre pour le développement de Grands Modèles Linguistiques Centrés sur l'Humain (HCLLMs), intégrant les perspectives du PNL, de l'IHM et de l'IA responsable. Il soutient la nécessité de prioriser rigoureusement les préoccupations, les préférences et les valeurs humaines à chaque étape du développement des LLMs, plutôt que comme une simple considération post-formation.

27
RESEARCHarXiv CS.LG·il y a 26j

Towards the Next Frontier of LLMs, Training on Private Data: A Cross-Domain Benchmark for Federated Fine-Tuning

L'article aborde le défi de la formation de grands modèles linguistiques (LLM) sur des données privées et distribuées, en particulier dans des secteurs réglementés comme la santé et la finance. Il propose une approche pratique pour exploiter ces données précieuses, mais non partageables et non-IID, afin d'équiper les LLM d'une expertise sectorielle plus approfondie.

27
RESEARCHarXiv CS.CL·11/05/2026

MultiSoc-4D: A Benchmark for Diagnosing Instruction-Induced Label Collapse in Closed-Set LLM Annotation of Bengali Social Media

MultiSoc-4D est un nouveau benchmark de données de médias sociaux bengalis pour diagnostiquer le comportement des LLM dans l'annotation en ensemble fermé. La recherche révèle un phénomène de "collapse d'étiquettes induit par l'instruction", où les LLM préfèrent systématiquement les étiquettes de repli, sous-détectant les catégories minoritaires.

27
RESEARCHarXiv CS.CL·07/05/2026

Are LLMs Ready for Conflict Monitoring? Empirical Evidence from West Africa

Cet article évalue les grands modèles linguistiques (LLM) en source ouverte et adaptés au domaine pour la classification des événements de conflit en Afrique de l'Ouest. L'étude révèle que les modèles en source ouverte présentent un biais de "Fausse Illégitimation", tandis que les modèles adaptés au domaine atteignent une neutralité directionnelle mais conservent un biais de sélection basé sur les acteurs.

27
RESEARCHarXiv CS.CL·07/05/2026

Free Energy-Driven Reinforcement Learning with Adaptive Advantage Shaping for Unsupervised Reasoning in LLMs

FREIA est un nouvel algorithme d'apprentissage par renforcement qui améliore les LLM pour le raisonnement non supervisé, en s'attaquant au manque d'adaptabilité des méthodes existantes. Il utilise la Récompense Guidée par l'Énergie Libre (FER) pour équilibrer le consensus et l'exploration, et la Modélisation Adaptative de l'Avantage (AAS) pour ajuster les signaux d'apprentissage. FREIA surpasse les méthodes non supervisées de base dans diverses tâches de raisonnement, notamment en mathématiques.

27