LLMs

715 items

RESEARCHarXiv CS.CL·8/4/2026

The Illusion of Latent Generalization: Bi-directionality and the Reversal Curse

Este artigo aborda a 'maldição da reversão' em modelos de linguagem autorregressivos, onde falham ao recuperar fatos em ordem inversa. A pesquisa demonstra que a precisão da reversão exige um sinal de treinamento que torne a entidade de origem um alvo de previsão, indicando armazenamento separado para direções diretas e inversas, em vez de uma representação única e agnóstica à direção.

LLMs NLP bidirectional models representation learning

RESEARCHarXiv CS.CL·7/4/2026

Evolutionary Search for Automated Design of Uncertainty Quantification Methods

Este artigo explora o uso de busca evolucionária impulsionada por LLMs para desenvolver automaticamente métodos de Quantificação de Incerteza (UQ) não supervisionados. Os métodos evoluídos superam baselines manuais em verificação de alegações, demonstrando generalização robusta e estratégias distintas entre diferentes modelos de LLM.

LLMs Uncertainty Quantification Evolutionary Search AI Research

RESEARCHarXiv CS.CL·7/4/2026

CresOWLve: Benchmarking Creative Problem-Solving Over Real-World Knowledge

CresOWLve é um novo benchmark para avaliar a resolução criativa de problemas em LLMs, superando as limitações dos benchmarks existentes. Ele utiliza quebra-cabeças baseados em conhecimento do mundo real, exigindo diversas estratégias de pensamento criativo e combinação de fatos para encontrar soluções.

LLMs Creative Problem Solving Benchmarks Cognitive Abilities

RESEARCHarXiv CS.CL·6/4/2026

Failing to Falsify: Evaluating and Mitigating Confirmation Bias in Language Models

Este estudo investiga o viés de confirmação em grandes modelos de linguagem (LLMs) usando uma tarefa de descoberta de regras, revelando que os LLMs exibem essa tendência, o que retarda a descoberta de regras ocultas. Ele demonstra que estratégias de intervenção, como o uso de prompts específicos, podem consistentemente diminuir esse viés.

LLMs prompt-engineering cognitive bias Confirmation Bias

RESEARCHarXiv CS.CL·6/4/2026

Speaking of Language: Reflections on Metalanguage Research in NLP

Este trabalho define metalinguagem e explora sua conexão com PNL e LLMs, discutindo esforços de pesquisa e dimensões de tarefas metalinguísticas. Propõe ainda uma lista de futuras direções de pesquisa pouco estudadas.

LLMs research Metalanguage NLP

RESEARCHarXiv CS.LG·6/4/2026

An Initial Exploration of Contrastive Prompt Tuning to Generate Energy-Efficient Code

Este estudo explora a otimização de LLMs para gerar código mais energeticamente eficiente, utilizando Contrastive Prompt Tuning (CPT). A CPT, que combina Contrastive Learning e Prompt Tuning, é avaliada em Python, Java e C++ para promover o desenvolvimento de software mais verde.

LLMs Energy Efficiency code generation PEFT

RESEARCHarXiv CS.LG·6/4/2026

Haiku to Opus in Just 10 bits: LLMs Unlock Massive Compression Gains

Este estudo explora a compressão de texto gerado por LLMs em regimes com e sem perdas, apresentando métodos que melhoram a eficiência em 2x, como adaptadores LoRA e reescritas concisas. Introduz também a compressão interativa por Perguntas e Respostas (QA), um protocolo que transfere um bit por resposta para recuperar uma parte significativa da capacidade de modelos maiores.

lossy compression LLMs arithmetic coding compute frontier

RESEARCHarXiv CS.CL·6/4/2026

An Empirical Study of Many-Shot In-Context Learning for Machine Translation of Low-Resource Languages

Este estudo empírico investiga o aprendizado em contexto (ICL) de muitos exemplos para tradução automática de inglês para dez idiomas de baixo recurso. Os achados mostram que o ICL se torna mais eficaz com o aumento do número de exemplos, e a recuperação baseada em BM25 melhora substancialmente a eficiência dos dados.

LLMs Many-Shot Learning NLP machine translation

RESEARCHarXiv CS.AI·23/4/2026

Explainable AML Triage with LLMs: Evidence Retrieval and Counterfactual Checks

Este trabajo presenta un marco de triaje AML explicable con LLMs para superar los riesgos de la generación no restringida, como las alucinaciones. Combina evidencia aumentada por recuperación, salidas estructuradas de LLM con citas explícitas y verificaciones contrafactuales para decisiones auditables.

LLMs Financial services Explainable AI fraud detection

RESEARCHarXiv CS.AI·23/4/2026

The Tool-Overuse Illusion: Why Does LLM Prefer External Tools over Internal Knowledge?

Este artículo revela el fenómeno generalizado del "uso excesivo de herramientas" en LLMs, donde los modelos emplean herramientas externas innecesariamente. Identifica una "ilusión epistémica del conocimiento" y propone una estrategia basada en la optimización de preferencia directa que reduce el uso de herramientas en un 82,8% y mejora la precisión.

LLMs Knowledge Representation Reasoning model behavior

RESEARCHarXiv CS.CL·6/5/2026

Evaluating Reasoning Models for Queries with Presuppositions

Esta investigación evalúa cómo los modelos de razonamiento avanzados manejan las consultas de los usuarios que contienen presuposiciones fácticas inexactas. Aunque estos modelos muestran una ligera mejora sobre los modelos no razonadores, aún no logran desafiar una fracción significativa de suposiciones falsas.

presuppositions AI models LLMs evaluation

RESEARCHarXiv CS.AI·6/5/2026

Stop Automating Peer Review Without Rigorous Evaluation

Este documento argumenta en contra del uso de los sistemas de IA actuales para la revisión por pares, señalando dos problemas críticos: un "efecto de colmena" que reduce la diversidad de perspectivas y la facilidad con la que se pueden manipular las puntuaciones de las revisiones de IA mediante la reescritura de trabajos. La comparación empírica de revisiones humanas y generadas por IA demuestra que los revisores de IA son susceptibles a cambios estilísticos, no al mérito científico, lo que subraya la necesidad de no ser manipulable y de la diversidad para la automatización.

LLMs academic publishing AI ethics Peer review

RESEARCHarXiv CS.CL·6/5/2026

Geometric Deviation as an Unsupervised Pre-Generation Reliability Signal: Probing LLM Representations for Answerability

Esta investigación explora el uso de la desviación geométrica de los estados ocultos de los LLM como una señal previa a la generación para indicar cuando una consulta está fuera del conocimiento del modelo. Se encontró que esta señal funciona bien para preguntas matemáticas sin respuesta, pero no para preguntas fácticas.

LLMs research Model Evaluation Reliability

RESEARCHarXiv CS.CL·6/5/2026

How Language Models Process Negation

Este estudio investiga cómo los Grandes Modelos de Lenguaje (LLMs) procesan mecanísticamente la negación, revelando que incluso los modelos de código abierto poseen componentes internos para el procesamiento correcto de la negación a pesar de a menudo dar respuestas incorrectas. Su baja precisión se atribuye a la atención de capas tardías que promueve atajos simples, y los modelos implementan tanto la atención a frases negadas como la construcción directa de representaciones de frases negativas.

LLMs Mechanistic Interpretability attention mechanisms Natural Language Processing

RESEARCHarXiv CS.AI·6/5/2026

Terminus-4B: Can a Smaller Model Replace Frontier LLMs at Agentic Execution Tasks?

Esta investigación presenta Terminus-4B, un modelo de lenguaje pequeño ajustado, para explorar su capacidad de reemplazar LLMs de frontera en tareas de ejecución de terminal agéntico. El modelo es post-entrenado usando SFT y RL con recompensas basadas en rúbricas de LLM como juez.

LLMs model training performance evaluation Small Language Models

RESEARCHarXiv CS.AI·hace 21d

Counterparty Modeling is Not Strategy: The Limits of LLM Negotiators

Los agentes LLM actuales modelan con precisión las preferencias de la contraparte, pero no logran transformar consistentemente este conocimiento en negociación estratégica. A menudo, responden a los valores percibidos de la contraparte sin asegurar ganancias en sus propios atributos de alto valor, llevando a resultados subóptimos para la parte informada.

Strategic Bargaining LLMs negotiation AI agents

RESEARCHarXiv CS.CL·hace 28d

Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks

Magis-Bench es un nuevo benchmark para evaluar Modelos de Lenguaje Grandes (LLM) en tareas legales de nivel magistral, utilizando 74 preguntas de recientes exámenes competitivos judiciales brasileños. Evalúa 23 LLM de vanguardia utilizando una metodología "LLM-como-juez" con una fuerte concordancia entre los jueces.

LLMs Legal AI Judicial tasks Benchmarks

RESEARCHarXiv CS.AI·hace 19d

OSCToM: RL-Guided Adversarial Generation for High-Order Theory of Mind

Este artículo presenta OSCToM, un enfoque para modelar conflictos de creencias anidados en tareas de Teoría de la Mente basadas en LLM. Combina el aprendizaje por refuerzo y modelos sustitutos composicionales para generar estos conflictos, y OSCToM-8B mostró los mejores resultados en los experimentos.

LLMs reinforcement learning AI Research Theory of Mind

NEWSML Mastery·30/4/2026

Effective KV Compression with TurboQuant

Google ha lanzado recientemente TurboQuant, una novedosa suite algorítmica y biblioteca para aplicar cuantificación y compresión avanzadas a grandes modelos de lenguaje (LLMs) y motores de búsqueda vectorial. Esta herramienta es un elemento indispensable de los sistemas RAG.

LLMs quantization vector search RAG systems

Effective KV Compression with TurboQuant

ARTICLEDEV.to AI·16/4/2026

I Tested Claude, GPT-4, and Gemini on the Same Refactoring Task

El artículo compara el rendimiento de Claude, GPT-4 y Gemini en una tarea de refactorización de código. Evalúa sus capacidades en la generación y mejora de código.

AI models LLMs software development comparison