LLMs

723 items

RESEARCHarXiv CS.LG·13/04/2026

Distributionally Robust Token Optimization in RLHF

Pour résoudre la susceptibilité des LLM aux échecs dus à de petits changements dans les invites, notamment pour le raisonnement en plusieurs étapes, des chercheurs proposent l'Optimisation de Tokens Robuste Distributionnellement (DRTO). Cette approche combine l'apprentissage par renforcement à partir du feedback humain (RLHF) au niveau du token avec l'optimisation robuste distributionnellement (DRO) pour améliorer la cohérence sous les changements de distribution, montrant des améliorations sur les benchmarks de raisonnement mathématique.

DRO LLMs RLHF Distributionally Robust Optimization

RESEARCHarXiv CS.LG·13/04/2026

QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation

QuanBench+ est un nouveau benchmark unifié et multi-framework pour évaluer les Large Language Models (LLM) dans la génération de code quantique, couvrant Qiskit, PennyLane et Cirq. Il évalue les modèles sur 42 tâches et démontre des améliorations significatives grâce à la réparation basée sur le feedback.

LLMs PennyLane Quantum Code Generation benchmarking

RESEARCHarXiv CS.CL·14/04/2026

Spoiler Alert: Narrative Forecasting as a Metric for Tension in LLM Storytelling

Cette recherche introduit la métrique '100-Endings' pour remédier à l'incapacité des LLM à générer des histoires captivantes et à reconnaître leurs propres lacunes. La métrique mesure la tension narrative en prédisant 100 fins phrase par phrase, s'avérant plus efficace que les rubriques actuelles pour distinguer les récits humains de haute qualité des productions d'IA.

LLMs storytelling Evaluation Metrics Narrative Tension

RESEARCHarXiv CS.CL·10/04/2026

Enabling Intrinsic Reasoning over Dense Geospatial Embeddings with DFR-Gemma

O conteúdo descreve o DFR-Gemma, um novo framework que permite que LLMs raciocinem diretamente sobre embeddings geoespaciais densos. Ele alinha embeddings de alta dimensão com o espaço latente de um LLM através de um projetor leve, injetando-os como tokens semânticos.

Geospatial AI LLMs Geospatial Embeddings Spatio-temporal Data

RESEARCHarXiv CS.CL·05/05/2026

CLEAR: Revealing How Noise and Ambiguity Degrade Reliability in LLMs for Medicine

Le framework CLEAR est introduit pour évaluer comment l'ambiguïté et l'incertitude affectent la fiabilité des grands modèles linguistiques (LLM) médicaux, au-delà des benchmarks simplifiés. Il perturbe systématiquement les options de réponse et leur cadrage sémantique, révélant qu'un nombre accru de réponses plausibles dégrade les performances des LLM et que la prudence diminue avec un libellé d'abstention incertain.

Ambiguity LLMs evaluation reliability

RESEARCHarXiv CS.CL·01/05/2026

Semantic Structure of Feature Space in Large Language Models

Cette étude révèle que les relations géométriques entre les caractéristiques sémantiques dans les états cachés des LLMs reflètent fidèlement les associations psychologiques humaines. La recherche montre que les projections de vecteurs de mots sur des axes sémantiques se corrèlent avec les évaluations humaines, et la similarité entre ces axes prédit l'interconnexion des échelles sémantiques.

LLMs cognitive science semantic representation NLP

RESEARCHarXiv CS.AI·09/05/2026

BALAR : A Bayesian Agentic Loop for Active Reasoning

Cet article présente BALAR (Bayesian Agentic Loop for Active Reasoning), un algorithme de boucle externe indépendant de la tâche qui permet une interaction structurée en plusieurs tours entre un agent LLM et un utilisateur. BALAR maintient une croyance structurée sur les états latents, sélectionne les questions de clarification en maximisant l'information mutuelle attendue et surpasse significativement les bases de référence sur divers benchmarks de raisonnement.

LLMs interactive AI Reasoning Bayesian models

RESEARCHarXiv CS.CL·09/04/2026

Beyond Facts: Benchmarking Distributional Reading Comprehension in Large Language Models

Este artigo introduz o Text2DistBench, um novo benchmark para avaliar a capacidade de LLMs inferirem conhecimento distribucional a partir de linguagem natural. Diferente dos benchmarks tradicionais, ele foca em tarefas do mundo real, como estimar proporções de sentimentos ou identificar tópicos frequentes em coleções de texto como comentários do YouTube.

Distributional Information Reading Comprehension LLMs benchmarking

RESEARCHarXiv CS.AI·25/04/2026

Escaping the Agreement Trap: Defensibility Signals for Evaluating Rule-Governed AI

Cet article propose un nouveau cadre pour évaluer l'IA régie par des règles, notamment dans la modération de contenu, en allant au-delà des mesures d'accord simples. Il introduit le Defensibility Index (DI), l'Ambiguity Index (AI) et le Probabilistic Defensibility Signal (PDS) pour évaluer la justesse basée sur la politique et la stabilité du raisonnement, en utilisant les traces de raisonnement des LLM pour vérifier la dérivabilité logique des règles.

LLMs content moderation AI ethics AI evaluation

RESEARCHarXiv CS.LG·14/04/2026

A Comparative Theoretical Analysis of Entropy Control Methods in Reinforcement Learning

Cet article propose une analyse théorique comparative des stratégies de contrôle d'entropie en apprentissage par renforcement, comparant la régularisation traditionnelle et un nouveau mécanisme basé sur la covariance pour l'entraînement des LLM. Il établit un cadre unifié, montrant que les méthodes basées sur la covariance atteignent une impartialité asymptotique en régularisant sélectivement, contrairement aux méthodes traditionnelles qui introduisent un biais persistant.

Entropy Control Policy Entropy LLMs reinforcement learning

RESEARCHarXiv CS.CL·09/04/2026

Cross-Lingual Transfer and Parameter-Efficient Adaptation in the Turkic Language Family: A Theoretical Framework for Low-Resource Language Models

Este artigo propõe um arcabouço teórico para estudar a transferência interlinguística e a adaptação eficiente de parâmetros em LLMs multilingues para a família de línguas túrquicas. Ele busca abordar a sub-representação de línguas de baixos recursos nesses modelos, como azerbaijano, cazaque, uzbeque, turcomeno e gagauz.

LLMs Turkic languages cross-lingual transfer Parameter-efficient adaptation

RESEARCHarXiv CS.CL·30/04/2026

LLMs Generate Kitsch

Cet article propose que les Large Language Models (LLM) génèrent systématiquement du kitsch, en raison de leur méthode d'entraînement. Empiriquement, l'étude montre que les lecteurs perçoivent les histoires générées par les LLM comme plus kitsch, avec des implications pour la conception d'études futures et les tâches créatives.

LLMs Content Generation AI creativity

RESEARCHarXiv CS.AI·27/04/2026

Introducing Background Temperature to Characterise Hidden Randomness in Large Language Models

Ce contenu introduit un nouveau concept, la 'Température de Fond', pour caractériser le caractère aléatoire caché des Grands Modèles de Langage.

LLMs machine learning randomness large language models

RESEARCHarXiv CS.LG·09/04/2026

RAGEN-2: Reasoning Collapse in Agentic RL

Este estudo introduz o conceito de 'colapso de template', uma falha em agentes LLM de múltiplas interações onde a resposta se torna agnóstica à entrada, mesmo com entropia estável. Propõe a Informação Mútua (MI) como uma métrica superior à entropia para diagnosticar a qualidade do raciocínio, correlacionando-se mais fortemente com o desempenho final.

LLMs reinforcement learning Reasoning Evaluation Metrics

RESEARCHarXiv CS.LG·01/05/2026

Fidelity, Diversity, and Privacy: A Multi-Dimensional LLM Evaluation for Clinical Data Augmentation

Cette recherche propose l'utilisation de LLM (DeepSeek-R1, OpenBioLLM-Llama3, Qwen 3.5) pour l'augmentation de données synthétiques en santé mentale, répondant à la pénurie et aux réglementations de confidentialité. Un cadre d'évaluation complet est introduit, évaluant la fidélité sémantique, la diversité lexicale et la confidentialité/plagiat pour atténuer les risques comme l'effondrement de mode ou la mémorisation.

synthetic data LLMs security Data Augmentation

RESEARCHarXiv CS.CL·30/04/2026

MATH-PT: A Math Reasoning Benchmark for European and Brazilian Portuguese

Cet article présente MATH-PT, un nouvel ensemble de données de 1 729 problèmes mathématiques en portugais européen et brésilien, pour corriger le biais linguistique dans l'évaluation du raisonnement mathématique des LLM. Le benchmark révèle que les modèles de pointe obtiennent de bons résultats sur les questions à choix multiples, mais que leurs performances diminuent pour les questions ouvertes.

Dataset mathematical reasoning LLMs benchmarking

RESEARCHarXiv CS.CL·01/05/2026

Cross-Lingual Response Consistency in Large Language Models: An ILR-Informed Evaluation of Claude Across Six Languages

Cet article présente un cadre d'évaluation basé sur l'ILR pour analyser la cohérence des réponses interlingues de Claude (Sonnet 4.6) dans six langues. L'analyse quantitative et qualitative révèle des variations telles que des différences de longueur de réponse et une divergence de surface dans les clusters créatifs.

Multilingual AI LLMs AI evaluation

RESEARCHarXiv CS.CL·30/04/2026

Analysing Lightweight Large Language Models for Biomedical Named Entity Recognition on Diverse Ouput Formats

Cette recherche analyse l'utilisation de LLM légers pour la reconnaissance d'entités nommées biomédicales, prouvant qu'ils peuvent atteindre des performances compétitives. L'étude souligne leur potentiel comme alternatives économes en ressources et identifie des formats de sortie spécifiques qui améliorent constamment les performances.

LLMs named entity recognition Model Evaluation NLP

RESEARCHarXiv CS.LG·01/05/2026

Automatic Causal Fairness Analysis with LLM-Generated Reporting

Le prototype logiciel `FairMind` automatise l'analyse de l'équité causale au niveau de l'ensemble de données, comblant le manque de considération d'équité dans la plupart des frameworks AutoML. Il utilise le modèle d'équité standard et les LLM pour générer des rapports précis sur l'équité basés sur des effets causaux contrefactuels.

LLMs causal AI AI ethics fairness

RESEARCHarXiv CS.CL·16/04/2026

Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling

Cet article affirme que le principal goulot d'étranglement dans la mise à l'échelle multimodale des MLLM est la densité de connaissances dans les données d'entraînement, et non le format des tâches. Il montre que la supervision spécifique aux tâches, comme le VQA, ajoute peu d'informations sémantiques au-delà des légendes d'images et que l'augmentation de la densité de connaissances améliore constamment les performances.

multimodal AI LLMs machine learning Research Paper