← heapsort-ai

LLMs

715 items

RESEARCHarXiv CS.CL·8/4/2026

The Illusion of Latent Generalization: Bi-directionality and the Reversal Curse

Este artigo aborda a 'maldição da reversão' em modelos de linguagem autorregressivos, onde falham ao recuperar fatos em ordem inversa. A pesquisa demonstra que a precisão da reversão exige um sinal de treinamento que torne a entidade de origem um alvo de previsão, indicando armazenamento separado para direções diretas e inversas, em vez de uma representação única e agnóstica à direção.

27
RESEARCHarXiv CS.CL·7/4/2026

Evolutionary Search for Automated Design of Uncertainty Quantification Methods

Este artigo explora o uso de busca evolucionária impulsionada por LLMs para desenvolver automaticamente métodos de Quantificação de Incerteza (UQ) não supervisionados. Os métodos evoluídos superam baselines manuais em verificação de alegações, demonstrando generalização robusta e estratégias distintas entre diferentes modelos de LLM.

27
RESEARCHarXiv CS.CL·6/4/2026

Failing to Falsify: Evaluating and Mitigating Confirmation Bias in Language Models

Este estudo investiga o viés de confirmação em grandes modelos de linguagem (LLMs) usando uma tarefa de descoberta de regras, revelando que os LLMs exibem essa tendência, o que retarda a descoberta de regras ocultas. Ele demonstra que estratégias de intervenção, como o uso de prompts específicos, podem consistentemente diminuir esse viés.

27
RESEARCHarXiv CS.LG·6/4/2026

Haiku to Opus in Just 10 bits: LLMs Unlock Massive Compression Gains

Este estudo explora a compressão de texto gerado por LLMs em regimes com e sem perdas, apresentando métodos que melhoram a eficiência em 2x, como adaptadores LoRA e reescritas concisas. Introduz também a compressão interativa por Perguntas e Respostas (QA), um protocolo que transfere um bit por resposta para recuperar uma parte significativa da capacidade de modelos maiores.

27
RESEARCHarXiv CS.CL·6/4/2026

An Empirical Study of Many-Shot In-Context Learning for Machine Translation of Low-Resource Languages

Este estudo empírico investiga o aprendizado em contexto (ICL) de muitos exemplos para tradução automática de inglês para dez idiomas de baixo recurso. Os achados mostram que o ICL se torna mais eficaz com o aumento do número de exemplos, e a recuperação baseada em BM25 melhora substancialmente a eficiência dos dados.

27
RESEARCHarXiv CS.AI·23/4/2026

The Tool-Overuse Illusion: Why Does LLM Prefer External Tools over Internal Knowledge?

Este artículo revela el fenómeno generalizado del "uso excesivo de herramientas" en LLMs, donde los modelos emplean herramientas externas innecesariamente. Identifica una "ilusión epistémica del conocimiento" y propone una estrategia basada en la optimización de preferencia directa que reduce el uso de herramientas en un 82,8% y mejora la precisión.

27
RESEARCHarXiv CS.AI·6/5/2026

Stop Automating Peer Review Without Rigorous Evaluation

Este documento argumenta en contra del uso de los sistemas de IA actuales para la revisión por pares, señalando dos problemas críticos: un "efecto de colmena" que reduce la diversidad de perspectivas y la facilidad con la que se pueden manipular las puntuaciones de las revisiones de IA mediante la reescritura de trabajos. La comparación empírica de revisiones humanas y generadas por IA demuestra que los revisores de IA son susceptibles a cambios estilísticos, no al mérito científico, lo que subraya la necesidad de no ser manipulable y de la diversidad para la automatización.

27
RESEARCHarXiv CS.CL·6/5/2026

Geometric Deviation as an Unsupervised Pre-Generation Reliability Signal: Probing LLM Representations for Answerability

Esta investigación explora el uso de la desviación geométrica de los estados ocultos de los LLM como una señal previa a la generación para indicar cuando una consulta está fuera del conocimiento del modelo. Se encontró que esta señal funciona bien para preguntas matemáticas sin respuesta, pero no para preguntas fácticas.

27
RESEARCHarXiv CS.CL·6/5/2026

How Language Models Process Negation

Este estudio investiga cómo los Grandes Modelos de Lenguaje (LLMs) procesan mecanísticamente la negación, revelando que incluso los modelos de código abierto poseen componentes internos para el procesamiento correcto de la negación a pesar de a menudo dar respuestas incorrectas. Su baja precisión se atribuye a la atención de capas tardías que promueve atajos simples, y los modelos implementan tanto la atención a frases negadas como la construcción directa de representaciones de frases negativas.

27
RESEARCHarXiv CS.AI·hace 21d

Counterparty Modeling is Not Strategy: The Limits of LLM Negotiators

Los agentes LLM actuales modelan con precisión las preferencias de la contraparte, pero no logran transformar consistentemente este conocimiento en negociación estratégica. A menudo, responden a los valores percibidos de la contraparte sin asegurar ganancias en sus propios atributos de alto valor, llevando a resultados subóptimos para la parte informada.

27