LLMs

720 items

RESEARCHarXiv CS.CL·il y a 29j

AIPO: : Learning to Reason from Active Interaction

AIPO est un nouveau cadre d'apprentissage par renforcement qui améliore le raisonnement des LLM grâce à une interaction multi-agents active lors de l'exploration. Il s'attaque aux limites des algorithmes de RL existants, qui sont contraints par les capacités intrinsèques du modèle de politique et s'appuient sur un guidage inefficace.

LLMs reinforcement learning learning AI Reasoning

ARTICLEDEV.to AI·10/04/2026

Citation Needed: Structured data extraction workflows

Este artigo explora a construção de um fluxo de trabalho utilizando modelos de linguagem generativos para verificar se um texto fornece evidências para suas afirmações, útil para auto-crítica ou detecção de alucinações. A tarefa exige um grau de compreensão de leitura e rigor que apenas modelos de linguagem maiores e de fronteira podem abordar, superando as capacidades de pipelines de PNL tradicionais.

structured data LLMs Workflow hallucinations

RESEARCHarXiv CS.AI·07/04/2026

Resource-Conscious Modeling for Next- Day Discharge Prediction Using Clinical Notes

Este estudo avaliou a viabilidade de modelos de linguagem grandes (LLMs) e modelos tradicionais baseados em texto para prever a alta hospitalar no dia seguinte usando notas clínicas pós-operatórias. Os resultados sugerem que modelos interpretáveis e eficientes em recursos podem superar LLMs compactos em tarefas de predição clínica desbalanceadas e do mundo real.

resource-efficient models LLMs machine learning discharge prediction

RESEARCHarXiv CS.CL·07/04/2026

LangFIR: Discovering Sparse Language-Specific Features from Monolingual Data for Language Steering

Este artigo introduz LangFIR, um método que descobre características de linguagem esparsas e específicas a partir de dados monolíngues para direcionar a saída de LLMs. Ele supera a limitação de abordagens existentes que exigem dados multilingues caros, utilizando autoencoders esparsos e sequências de tokens aleatórios.

model interpretability Multilingual Models LLMs Monolingual Data

RESEARCHarXiv CS.AI·07/04/2026

When Do Hallucinations Arise? A Graph Perspective on the Evolution of Path Reuse and Path Compression

Este artigo explora as alucinações de raciocínio em LLMs, modelando a previsão de tokens como um processo de busca em grafo. Ele identifica dois mecanismos fundamentais para o surgimento dessas alucinações: o "Path Reuse" (reutilização de caminhos) e o "Path Compression" (compressão de caminhos).

LLMs Path Reuse Path Compression modelos de grafo

RESEARCHarXiv CS.CL·08/04/2026

The Illusion of Latent Generalization: Bi-directionality and the Reversal Curse

Este artigo aborda a 'maldição da reversão' em modelos de linguagem autorregressivos, onde falham ao recuperar fatos em ordem inversa. A pesquisa demonstra que a precisão da reversão exige um sinal de treinamento que torne a entidade de origem um alvo de previsão, indicando armazenamento separado para direções diretas e inversas, em vez de uma representação única e agnóstica à direção.

LLMs NLP bidirectional models representation learning

RESEARCHarXiv CS.CL·07/04/2026

Evolutionary Search for Automated Design of Uncertainty Quantification Methods

Este artigo explora o uso de busca evolucionária impulsionada por LLMs para desenvolver automaticamente métodos de Quantificação de Incerteza (UQ) não supervisionados. Os métodos evoluídos superam baselines manuais em verificação de alegações, demonstrando generalização robusta e estratégias distintas entre diferentes modelos de LLM.

LLMs uncertainty quantification Evolutionary Search AI research

RESEARCHarXiv CS.CL·07/04/2026

CresOWLve: Benchmarking Creative Problem-Solving Over Real-World Knowledge

CresOWLve é um novo benchmark para avaliar a resolução criativa de problemas em LLMs, superando as limitações dos benchmarks existentes. Ele utiliza quebra-cabeças baseados em conhecimento do mundo real, exigindo diversas estratégias de pensamento criativo e combinação de fatos para encontrar soluções.

LLMs Creative Problem Solving benchmarks Cognitive Abilities

RESEARCHarXiv CS.CL·06/04/2026

Failing to Falsify: Evaluating and Mitigating Confirmation Bias in Language Models

Este estudo investiga o viés de confirmação em grandes modelos de linguagem (LLMs) usando uma tarefa de descoberta de regras, revelando que os LLMs exibem essa tendência, o que retarda a descoberta de regras ocultas. Ele demonstra que estratégias de intervenção, como o uso de prompts específicos, podem consistentemente diminuir esse viés.

LLMs prompt-engineering cognitive bias Confirmation Bias

RESEARCHarXiv CS.CL·06/04/2026

Speaking of Language: Reflections on Metalanguage Research in NLP

Este trabalho define metalinguagem e explora sua conexão com PNL e LLMs, discutindo esforços de pesquisa e dimensões de tarefas metalinguísticas. Propõe ainda uma lista de futuras direções de pesquisa pouco estudadas.

LLMs research Metalanguage NLP

RESEARCHarXiv CS.LG·06/04/2026

An Initial Exploration of Contrastive Prompt Tuning to Generate Energy-Efficient Code

Este estudo explora a otimização de LLMs para gerar código mais energeticamente eficiente, utilizando Contrastive Prompt Tuning (CPT). A CPT, que combina Contrastive Learning e Prompt Tuning, é avaliada em Python, Java e C++ para promover o desenvolvimento de software mais verde.

LLMs Energy Efficiency code generation PEFT

RESEARCHarXiv CS.LG·06/04/2026

Haiku to Opus in Just 10 bits: LLMs Unlock Massive Compression Gains

Este estudo explora a compressão de texto gerado por LLMs em regimes com e sem perdas, apresentando métodos que melhoram a eficiência em 2x, como adaptadores LoRA e reescritas concisas. Introduz também a compressão interativa por Perguntas e Respostas (QA), um protocolo que transfere um bit por resposta para recuperar uma parte significativa da capacidade de modelos maiores.

lossy compression LLMs arithmetic coding compute frontier

RESEARCHarXiv CS.CL·06/04/2026

An Empirical Study of Many-Shot In-Context Learning for Machine Translation of Low-Resource Languages

Este estudo empírico investiga o aprendizado em contexto (ICL) de muitos exemplos para tradução automática de inglês para dez idiomas de baixo recurso. Os achados mostram que o ICL se torna mais eficaz com o aumento do número de exemplos, e a recuperação baseada em BM25 melhora substancialmente a eficiência dos dados.

LLMs Many-Shot Learning NLP machine translation

RESEARCHarXiv CS.AI·23/04/2026

Explainable AML Triage with LLMs: Evidence Retrieval and Counterfactual Checks

Cet article propose un cadre explicable de triage AML utilisant des LLM, atténuant les risques de génération non contrainte comme les hallucinations. La méthode intègre l'agrégation de preuves, des sorties structurées avec citations et des vérifications contrefactuelles pour des décisions auditables.

LLMs Financial services Explainable AI fraud detection

RESEARCHarXiv CS.AI·23/04/2026

The Tool-Overuse Illusion: Why Does LLM Prefer External Tools over Internal Knowledge?

Cet article révèle le phénomène répandu de la "surutilisation d'outils" par les LLM, où les modèles emploient des outils externes inutilement. Il identifie une "illusion épistémique de la connaissance" et propose une stratégie basée sur l'optimisation des préférences directes qui réduit l'utilisation d'outils de 82,8 % tout en améliorant la précision.

LLMs Knowledge Representation Reasoning model behavior

RESEARCHarXiv CS.CL·06/05/2026

Evaluating Reasoning Models for Queries with Presuppositions

Cette recherche évalue comment les modèles de raisonnement gèrent les requêtes des utilisateurs contenant des présuppositions factuellement inexactes. Bien que ces modèles montrent une légère amélioration par rapport aux modèles non-raisonneurs, ils échouent toujours à contester une fraction significative des fausses hypothèses.

presuppositions AI models LLMs evaluation

RESEARCHarXiv CS.AI·06/05/2026

Stop Automating Peer Review Without Rigorous Evaluation

Cet article déconseille l'utilisation des systèmes d'IA actuels pour l'évaluation par les pairs, identifiant deux problèmes critiques: un "effet de ruche" qui réduit la diversité des perspectives et la facilité de manipulation des scores d'évaluation par l'IA via la réécriture de l'article. Une comparaison empirique des évaluations humaines et générées par l'IA montre que les évaluateurs IA sont sensibles aux changements stylistiques plutôt qu'au mérite scientifique, soulignant la nécessité de la non-manipulabilité et de la diversité pour l'automatisation.

LLMs academic publishing AI ethics peer review

RESEARCHarXiv CS.CL·06/05/2026

Geometric Deviation as an Unsupervised Pre-Generation Reliability Signal: Probing LLM Representations for Answerability

Cette recherche étudie l'utilisation de la déviation géométrique des états cachés des LLM comme signal de pré-génération pour indiquer quand une requête dépasse les connaissances du modèle. Il a été constaté que ce signal fonctionne bien pour les requêtes mathématiques non répondables, mais pas pour les requêtes factuelles.

LLMs research Model Evaluation Reliability

RESEARCHarXiv CS.CL·06/05/2026

How Language Models Process Negation

Cette étude examine comment les grands modèles de langage (LLM) traitent mécaniquement la négation, révélant que même les modèles open-source possèdent des composants internes pour un traitement correct de la négation, malgré leurs erreurs fréquentes. Leur faible précision est attribuée à une attention des couches tardives qui favorise des raccourcis simples, et les modèles mettent en œuvre à la fois l'attention aux phrases niées et la construction directe de représentations de phrases négatives.

LLMs Mechanistic Interpretability Attention Mechanisms Natural Language Processing

RESEARCHarXiv CS.AI·06/05/2026

Terminus-4B: Can a Smaller Model Replace Frontier LLMs at Agentic Execution Tasks?

Cette recherche présente Terminus-4B, un petit modèle linguistique affiné, pour étudier sa capacité à remplacer les LLM de pointe dans les tâches d'exécution terminale agentique. Le modèle est post-entraîné en utilisant SFT et RL avec des récompenses basées sur une grille d'évaluation LLM-en-tant-que-juge.

LLMs model training performance evaluation Small Language Models