LLMs

722 items

RESEARCHarXiv CS.CL·24/04/2026

TRACES: Tagging Reasoning Steps for Adaptive Cost-Efficient Early-Stopping

Cet article présente TRACES, un framework léger conçu pour optimiser les Modèles de Raisonnement Linguistique (LRMs) en étiquetant les étapes de raisonnement en temps réel. Il permet un arrêt précoce adaptatif et rentable des inférences LRM, s'attaquant à leur inefficacité actuelle et à la sur-génération d'étapes de vérification.

LLMs early stopping Reasoning inference optimization

RESEARCHarXiv CS.AI·04/05/2026

Minimal, Local, Causal Explanations for Jailbreak Success in Large Language Models

Cet article explore des explications minimales, locales et causales pour le succès des attaques de jailbreak sur les grands modèles de langage (LLMs). La recherche aborde le manque de compréhension robuste concernant la vulnérabilité des LLMs à ces attaques, qui permettent des réponses nuisibles malgré leur entraînement de sécurité.

LLMs jailbreak security AI safety

RESEARCHarXiv CS.CL·24/04/2026

AFRILANGTUTOR: Advancing Language Tutoring and Culture Education in Low-Resource Languages with Large Language Models

Cet article présente AFRILANGDICT, une collection d'entrées de dictionnaire de langues africaines-anglais, et AFRILANGEDU, un ensemble de données. Ces ressources sont utilisées pour entraîner des modèles d'IA, appelés AFRILANGTUTOR, pour le tutorat linguistique dans les langues africaines à faibles ressources, comblant ainsi le manque de systèmes d'IA pour les langues locales sur le continent africain.

LLMs language education Africa Low-resource languages

RESEARCHarXiv CS.CL·04/05/2026

Cultural Benchmarking of LLMs in Standard and Dialectal Arabic Dialogues

Une nouvelle recherche comble le manque d'évaluation du raisonnement culturel dans les LLM en introduisant ArabCulture-Dialogue, un ensemble de données conversationnelles culturellement ancré couvrant 13 pays arabophones. Les expériences montrent que les modèles sont moins performants sur les tâches de raisonnement culturel, de traduction et de génération dans des contextes dialectaux par rapport à l'arabe standard moderne.

LLMs Arabic dialects cultural reasoning benchmarking

RESEARCHarXiv CS.AI·il y a 18j

MindLoom: Composing Thought Modes for Frontier-Level Reasoning Data Synthesis

MindLoom est un cadre pour synthétiser des données de raisonnement de niveau avancé, s'attaquant à la diversité limitée et au contrôle instable de la difficulté des méthodes existantes. Il décompose les solutions de problèmes en "chaînes de modes de pensée" et entraîne un modèle de récupération pour guider le processus de raisonnement.

data synthesis Thought Modes LLMs AI frameworks

RESEARCHarXiv CS.LG·il y a 18j

Harnesses for Inference-Time Alignment over Execution Trajectories

Cette recherche étudie l'ingénierie des harnais comme technique d'inférence pour les agents de grands modèles linguistiques (LLM), visant à améliorer les performances à long terme par la décomposition des tâches et l'exécution guidée. Elle quantifie l'impact des éléments de conception tels que la granularité du flux de travail et l'orientation sur les performances, révélant des modes de défaillance courants comme la surdécomposition et l'exécution hallucinatoire.

inference LLMs machine learning Task Decomposition

RESEARCHarXiv CS.CL·21/04/2026

Multimodal Claim Extraction for Fact-Checking

Ce travail introduit le premier benchmark pour l'extraction de revendications multimodales à partir de publications sur les réseaux sociaux, essentiel pour la vérification automatisée des faits. Il évalue les MLLM de pointe et propose MICE, un cadre conscient de l'intention, pour relever les défis de la modélisation de l'intention rhétorique et des indices contextuels.

multimodal AI LLMs social media misinformation

RESEARCHarXiv CS.CL·21/04/2026

LiFT: Does Instruction Fine-Tuning Improve In-Context Learning for Longitudinal Modelling by Large Language Models?

LiFT est un nouveau cadre de réglage fin par instruction visant à améliorer l'apprentissage en contexte des LLM pour les tâches PNL longitudinales, qui nécessitent un raisonnement sur des textes ordonnés temporellement. Il utilise un curriculum augmentant progressivement la difficulté temporelle, intégrant une structure d'apprentissage par quelques exemples et un conditionnement temporel, surpassant constamment les modèles de base sur divers ensembles de données et tailles de paramètres.

LLMs temporal reasoning Natural Language Processing in-context learning

RESEARCHarXiv CS.CL·il y a 26j

PEML: Parameter-efficient Multi-Task Learning with Optimized Continuous Prompts

Cet article introduit PEML, une méthode d'apprentissage multi-tâches économe en paramètres avec des prompts continus optimisés pour les grands modèles de langage. Il vise à pallier les lacunes des méthodes PEFT existantes comme LoRA et Prefix Tuning, permettant un ajustement fin plus efficace pour plusieurs tâches et favorisant la consolidation des ressources.

Resource efficiency multi-task learning LLMs Prompt tuning

RESEARCHarXiv CS.CL·il y a 26j

Derivation Prompting: A Logic-Based Method for Improving Retrieval-Augmented Generation

Cet article introduit le Derivation Prompting, une nouvelle technique de prompting pour le framework Retrieval-Augmented Generation (RAG). La méthode vise à réduire les hallucinations et le raisonnement erroné des Large Language Models (LLMs) en appliquant systématiquement des règles prédéfinies pour dériver des conclusions. Une étude de cas a montré une réduction significative des réponses inacceptables par rapport aux méthodes RAG traditionnelles.

LLMs RAG Prompting Natural Language Processing

RESEARCHarXiv CS.LG·24/04/2026

Reinforcing privacy reasoning in LLMs via normative simulacra from fiction

Cet article propose une nouvelle méthode pour renforcer le raisonnement de confidentialité des LLM en extrayant des simulacres normatifs de romans de fiction. L'approche consiste à affiner les LLM via l'apprentissage supervisé suivi par l'apprentissage par renforcement GRPO, en utilisant une fonction de récompense composite pour aligner la gestion de l'information avec les attentes de confidentialité des utilisateurs.

LLMs privacy security machine learning

RESEARCHarXiv CS.CL·07/05/2026

Adapt to Thrive! Adaptive Power-Mean Policy Optimization for Improved LLM Reasoning

Cette recherche présente l'Optimisation Adaptative de Politique de Moyenne de Puissance (APMPO) pour améliorer les capacités de raisonnement des Grands Modèles Linguistiques (LLMs) via RLVR. APMPO combine un objectif de moyenne de puissance généralisée et un écrêtage adaptatif par rétroaction pour optimiser la dynamique d'apprentissage et les performances.

Policy optimization LLMs reinforcement learning machine learning

RESEARCHarXiv CS.CL·il y a 8j

ART: Attention Run-time Termination for Efficient Large Language Model Decoding

Le décodage de contexte long dans les Large Language Models (LLMs) est fortement contraint par la bande passante mémoire du cache Key-Value (KV). Cet article propose l'Attention Run-time Termination (ART), un mécanisme léger qui optimise l'accès au cache KV, augmentant le débit de génération de 20%.

LLMs memory management decoding performance

RESEARCHarXiv CS.CL·11/05/2026

Can LLMs Take Retrieved Information with a Grain of Salt?

Cet article évalue la capacité des grands modèles de langage (LLM) à adapter leurs réponses à la certitude des informations récupérées, révélant des limitations systématiques. Il propose une stratégie d'interaction combinant des rappels préalables, une recalibration de la certitude et une simplification du contexte pour améliorer la fiabilité des LLM. Cette approche réduit les erreurs d'obéissance de 25% sans modifier les poids du modèle.

LLMs context certainty Natural Language Processing AI reliability

RESEARCHarXiv CS.CL·24/04/2026

DWTSumm: Discrete Wavelet Transform for Document Summarization

Cette recherche propose un cadre basé sur la Transformée en Ondelettes Discrète (DWT) pour améliorer la synthèse de documents, notamment pour les textes longs et spécifiques à un domaine où les LLM rencontrent des difficultés. La méthode crée des représentations compactes qui améliorent la similarité sémantique, l'ancrage et la cohérence factuelle par rapport à une base GPT-4o.

LLMs wavelet transform NLP Document Summarization

RESEARCHarXiv CS.CL·11/05/2026

Reflections and New Directions for Human-Centered Large Language Models

Ce travail présente un cadre pour le développement de Grands Modèles Linguistiques Centrés sur l'Humain (HCLLMs), intégrant les perspectives du PNL, de l'IHM et de l'IA responsable. Il soutient la nécessité de prioriser rigoureusement les préoccupations, les préférences et les valeurs humaines à chaque étape du développement des LLMs, plutôt que comme une simple considération post-formation.

LLMs HCI NLP AI ethics

RESEARCHarXiv CS.LG·il y a 26j

Towards the Next Frontier of LLMs, Training on Private Data: A Cross-Domain Benchmark for Federated Fine-Tuning

L'article aborde le défi de la formation de grands modèles linguistiques (LLM) sur des données privées et distribuées, en particulier dans des secteurs réglementés comme la santé et la finance. Il propose une approche pratique pour exploiter ces données précieuses, mais non partageables et non-IID, afin d'équiper les LLM d'une expertise sectorielle plus approfondie.

LLMs private data privacy benchmarking

RESEARCHarXiv CS.CL·11/05/2026

MultiSoc-4D: A Benchmark for Diagnosing Instruction-Induced Label Collapse in Closed-Set LLM Annotation of Bengali Social Media

MultiSoc-4D est un nouveau benchmark de données de médias sociaux bengalis pour diagnostiquer le comportement des LLM dans l'annotation en ensemble fermé. La recherche révèle un phénomène de "collapse d'étiquettes induit par l'instruction", où les LLM préfèrent systématiquement les étiquettes de repli, sous-détectant les catégories minoritaires.

LLMs Natural Language Processing Data Annotation benchmarks

RESEARCHarXiv CS.CL·07/05/2026

Are LLMs Ready for Conflict Monitoring? Empirical Evidence from West Africa

Cet article évalue les grands modèles linguistiques (LLM) en source ouverte et adaptés au domaine pour la classification des événements de conflit en Afrique de l'Ouest. L'étude révèle que les modèles en source ouverte présentent un biais de "Fausse Illégitimation", tandis que les modèles adaptés au domaine atteignent une neutralité directionnelle mais conservent un biais de sélection basé sur les acteurs.

LLMs Model Evaluation Conflict Monitoring Humanitarian Accountability

RESEARCHarXiv CS.CL·07/05/2026

Free Energy-Driven Reinforcement Learning with Adaptive Advantage Shaping for Unsupervised Reasoning in LLMs

FREIA est un nouvel algorithme d'apprentissage par renforcement qui améliore les LLM pour le raisonnement non supervisé, en s'attaquant au manque d'adaptabilité des méthodes existantes. Il utilise la Récompense Guidée par l'Énergie Libre (FER) pour équilibrer le consensus et l'exploration, et la Modélisation Adaptative de l'Avantage (AAS) pour ajuster les signaux d'apprentissage. FREIA surpasse les méthodes non supervisées de base dans diverses tâches de raisonnement, notamment en mathématiques.

LLMs reinforcement learning AI algorithms Reasoning