← heapsort-ai

LLMs

720 items

ARTICLEDEV.to AI·10/04/2026

Citation Needed: Structured data extraction workflows

Este artigo explora a construção de um fluxo de trabalho utilizando modelos de linguagem generativos para verificar se um texto fornece evidências para suas afirmações, útil para auto-crítica ou detecção de alucinações. A tarefa exige um grau de compreensão de leitura e rigor que apenas modelos de linguagem maiores e de fronteira podem abordar, superando as capacidades de pipelines de PNL tradicionais.

27
RESEARCHarXiv CS.AI·07/04/2026

Resource-Conscious Modeling for Next- Day Discharge Prediction Using Clinical Notes

Este estudo avaliou a viabilidade de modelos de linguagem grandes (LLMs) e modelos tradicionais baseados em texto para prever a alta hospitalar no dia seguinte usando notas clínicas pós-operatórias. Os resultados sugerem que modelos interpretáveis e eficientes em recursos podem superar LLMs compactos em tarefas de predição clínica desbalanceadas e do mundo real.

27
RESEARCHarXiv CS.CL·07/04/2026

LangFIR: Discovering Sparse Language-Specific Features from Monolingual Data for Language Steering

Este artigo introduz LangFIR, um método que descobre características de linguagem esparsas e específicas a partir de dados monolíngues para direcionar a saída de LLMs. Ele supera a limitação de abordagens existentes que exigem dados multilingues caros, utilizando autoencoders esparsos e sequências de tokens aleatórios.

27
RESEARCHarXiv CS.CL·08/04/2026

The Illusion of Latent Generalization: Bi-directionality and the Reversal Curse

Este artigo aborda a 'maldição da reversão' em modelos de linguagem autorregressivos, onde falham ao recuperar fatos em ordem inversa. A pesquisa demonstra que a precisão da reversão exige um sinal de treinamento que torne a entidade de origem um alvo de previsão, indicando armazenamento separado para direções diretas e inversas, em vez de uma representação única e agnóstica à direção.

27
RESEARCHarXiv CS.CL·07/04/2026

Evolutionary Search for Automated Design of Uncertainty Quantification Methods

Este artigo explora o uso de busca evolucionária impulsionada por LLMs para desenvolver automaticamente métodos de Quantificação de Incerteza (UQ) não supervisionados. Os métodos evoluídos superam baselines manuais em verificação de alegações, demonstrando generalização robusta e estratégias distintas entre diferentes modelos de LLM.

27
RESEARCHarXiv CS.CL·06/04/2026

Failing to Falsify: Evaluating and Mitigating Confirmation Bias in Language Models

Este estudo investiga o viés de confirmação em grandes modelos de linguagem (LLMs) usando uma tarefa de descoberta de regras, revelando que os LLMs exibem essa tendência, o que retarda a descoberta de regras ocultas. Ele demonstra que estratégias de intervenção, como o uso de prompts específicos, podem consistentemente diminuir esse viés.

27
RESEARCHarXiv CS.LG·06/04/2026

Haiku to Opus in Just 10 bits: LLMs Unlock Massive Compression Gains

Este estudo explora a compressão de texto gerado por LLMs em regimes com e sem perdas, apresentando métodos que melhoram a eficiência em 2x, como adaptadores LoRA e reescritas concisas. Introduz também a compressão interativa por Perguntas e Respostas (QA), um protocolo que transfere um bit por resposta para recuperar uma parte significativa da capacidade de modelos maiores.

27
RESEARCHarXiv CS.CL·06/04/2026

An Empirical Study of Many-Shot In-Context Learning for Machine Translation of Low-Resource Languages

Este estudo empírico investiga o aprendizado em contexto (ICL) de muitos exemplos para tradução automática de inglês para dez idiomas de baixo recurso. Os achados mostram que o ICL se torna mais eficaz com o aumento do número de exemplos, e a recuperação baseada em BM25 melhora substancialmente a eficiência dos dados.

27
RESEARCHarXiv CS.AI·23/04/2026

The Tool-Overuse Illusion: Why Does LLM Prefer External Tools over Internal Knowledge?

Cet article révèle le phénomène répandu de la "surutilisation d'outils" par les LLM, où les modèles emploient des outils externes inutilement. Il identifie une "illusion épistémique de la connaissance" et propose une stratégie basée sur l'optimisation des préférences directes qui réduit l'utilisation d'outils de 82,8 % tout en améliorant la précision.

27
RESEARCHarXiv CS.AI·06/05/2026

Stop Automating Peer Review Without Rigorous Evaluation

Cet article déconseille l'utilisation des systèmes d'IA actuels pour l'évaluation par les pairs, identifiant deux problèmes critiques: un "effet de ruche" qui réduit la diversité des perspectives et la facilité de manipulation des scores d'évaluation par l'IA via la réécriture de l'article. Une comparaison empirique des évaluations humaines et générées par l'IA montre que les évaluateurs IA sont sensibles aux changements stylistiques plutôt qu'au mérite scientifique, soulignant la nécessité de la non-manipulabilité et de la diversité pour l'automatisation.

27
RESEARCHarXiv CS.CL·06/05/2026

Geometric Deviation as an Unsupervised Pre-Generation Reliability Signal: Probing LLM Representations for Answerability

Cette recherche étudie l'utilisation de la déviation géométrique des états cachés des LLM comme signal de pré-génération pour indiquer quand une requête dépasse les connaissances du modèle. Il a été constaté que ce signal fonctionne bien pour les requêtes mathématiques non répondables, mais pas pour les requêtes factuelles.

27
RESEARCHarXiv CS.CL·06/05/2026

How Language Models Process Negation

Cette étude examine comment les grands modèles de langage (LLM) traitent mécaniquement la négation, révélant que même les modèles open-source possèdent des composants internes pour un traitement correct de la négation, malgré leurs erreurs fréquentes. Leur faible précision est attribuée à une attention des couches tardives qui favorise des raccourcis simples, et les modèles mettent en œuvre à la fois l'attention aux phrases niées et la construction directe de représentations de phrases négatives.

27