LLMs

723 items

RESEARCHarXiv CS.LG·13/4/2026

Distributionally Robust Token Optimization in RLHF

Para abordar la susceptibilidad de los LLMs a fallos por pequeños cambios en las instrucciones, especialmente en el razonamiento de varios pasos, los investigadores proponen la Optimización de Tokens Robusta Distribucionalmente (DRTO). Este enfoque combina el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) a nivel de token con la Optimización Robusta Distribucionalmente (DRO) para mejorar la consistencia bajo cambios de distribución, mostrando mejoras en benchmarks de razonamiento matemático.

DRO LLMs RLHF Distributionally Robust Optimization

RESEARCHarXiv CS.LG·13/4/2026

QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation

QuanBench+ es un nuevo benchmark unificado y multiframework para evaluar Large Language Models (LLMs) en la generación de código cuántico, abarcando Qiskit, PennyLane y Cirq. Evalúa modelos en 42 tareas y demuestra mejoras significativas con la reparación basada en feedback.

LLMs PennyLane Quantum Code Generation benchmarking

RESEARCHarXiv CS.CL·14/4/2026

Spoiler Alert: Narrative Forecasting as a Metric for Tension in LLM Storytelling

Esta investigación presenta la métrica '100-Endings' para abordar el fracaso de los LLM en generar historias convincentes y en reconocer sus propios problemas de calidad. La métrica mide la tensión narrativa prediciendo 100 finales frase por frase, demostrando ser más eficaz que las rúbricas actuales para distinguir narrativas humanas de alta calidad de las salidas de IA.

LLMs storytelling Evaluation Metrics Narrative Tension

RESEARCHarXiv CS.CL·10/4/2026

Enabling Intrinsic Reasoning over Dense Geospatial Embeddings with DFR-Gemma

O conteúdo descreve o DFR-Gemma, um novo framework que permite que LLMs raciocinem diretamente sobre embeddings geoespaciais densos. Ele alinha embeddings de alta dimensão com o espaço latente de um LLM através de um projetor leve, injetando-os como tokens semânticos.

Geospatial AI LLMs Geospatial Embeddings Spatio-temporal Data

RESEARCHarXiv CS.CL·5/5/2026

CLEAR: Revealing How Noise and Ambiguity Degrade Reliability in LLMs for Medicine

Se introduce el framework CLEAR para evaluar cómo la ambigüedad y la incerteza afectan la fiabilidad de los Modelos de Lenguaje Grandes (LLMs) médicos, yendo más allá de los benchmarks simplificados. Perturba sistemáticamente las opciones de respuesta y su encuadre semántico, revelando que el aumento de respuestas plausibles degrada el rendimiento de los LLMs y la precaución disminuye con un fraseo incierto de abstención.

Ambiguity LLMs evaluation reliability

RESEARCHarXiv CS.CL·1/5/2026

Semantic Structure of Feature Space in Large Language Models

Este estudio demuestra que las relaciones geométricas entre las características semánticas en los estados ocultos de los LLMs reflejan fielmente las asociaciones psicológicas humanas. La investigación muestra que las proyecciones de vectores de palabras en ejes semánticos se correlacionan con las valoraciones humanas, y la similitud entre estos ejes predice la interconexión de las escalas semánticas.

LLMs cognitive science semantic representation NLP

RESEARCHarXiv CS.AI·9/5/2026

BALAR : A Bayesian Agentic Loop for Active Reasoning

Este artículo presenta BALAR (Bayesian Agentic Loop for Active Reasoning), un algoritmo de bucle externo agnóstico a la tarea que permite la interacción estructurada en múltiples turnos entre un agente LLM y un usuario. BALAR mantiene una creencia estructurada sobre estados latentes, selecciona preguntas aclaratorias maximizando la información mutua esperada y supera significativamente a los modelos de referencia en diversos puntos de referencia de razonamiento.

LLMs interactive AI Reasoning Bayesian models

RESEARCHarXiv CS.CL·9/4/2026

Beyond Facts: Benchmarking Distributional Reading Comprehension in Large Language Models

Este artigo introduz o Text2DistBench, um novo benchmark para avaliar a capacidade de LLMs inferirem conhecimento distribucional a partir de linguagem natural. Diferente dos benchmarks tradicionais, ele foca em tarefas do mundo real, como estimar proporções de sentimentos ou identificar tópicos frequentes em coleções de texto como comentários do YouTube.

Distributional Information Reading Comprehension LLMs benchmarking

RESEARCHarXiv CS.AI·25/4/2026

Escaping the Agreement Trap: Defensibility Signals for Evaluating Rule-Governed AI

Este artículo presenta un nuevo marco para evaluar la IA gobernada por reglas, especialmente en la moderación de contenido, yendo más allá de las métricas de acuerdo simples. Propone el Defensibility Index (DI), Ambiguity Index (AI) y Probabilistic Defensibility Signal (PDS) para evaluar la corrección basada en políticas y la estabilidad del razonamiento, utilizando trazas de LLM para verificar la derivabilidad lógica de las reglas.

LLMs content moderation AI ethics AI evaluation

RESEARCHarXiv CS.LG·14/4/2026

A Comparative Theoretical Analysis of Entropy Control Methods in Reinforcement Learning

Este artículo presenta un análisis teórico comparativo de estrategias de control de entropía en Aprendizaje por Refuerzo, enfocándose en la regularización tradicional versus un mecanismo basado en covarianza para el entrenamiento de LLMs. Establece un marco unificado, mostrando que los métodos basados en covarianza logran una imparcialidad asintótica al regularizar selectivamente, a diferencia de los métodos tradicionales que introducen un sesgo persistente.

Entropy Control Policy Entropy LLMs reinforcement learning

RESEARCHarXiv CS.CL·9/4/2026

Cross-Lingual Transfer and Parameter-Efficient Adaptation in the Turkic Language Family: A Theoretical Framework for Low-Resource Language Models

Este artigo propõe um arcabouço teórico para estudar a transferência interlinguística e a adaptação eficiente de parâmetros em LLMs multilingues para a família de línguas túrquicas. Ele busca abordar a sub-representação de línguas de baixos recursos nesses modelos, como azerbaijano, cazaque, uzbeque, turcomeno e gagauz.

LLMs Turkic languages cross-lingual transfer Parameter-efficient adaptation

RESEARCHarXiv CS.CL·30/4/2026

LLMs Generate Kitsch

Este artículo propone que los Large Language Models (LLMs) generan sistemáticamente kitsch, lo cual es una consecuencia de su entrenamiento. Empíricamente, el estudio muestra que los lectores perciben las historias generadas por LLMs como más kitsch, con implicaciones para el diseño de futuros estudios y tareas creativas.

LLMs Content Generation AI creativity

RESEARCHarXiv CS.AI·27/4/2026

Introducing Background Temperature to Characterise Hidden Randomness in Large Language Models

Este contenido introduce un nuevo concepto, la 'Temperatura de Fondo', para caracterizar la aleatoriedad oculta en los Grandes Modelos de Lenguaje.

LLMs machine learning randomness large language models

RESEARCHarXiv CS.LG·9/4/2026

RAGEN-2: Reasoning Collapse in Agentic RL

Este estudo introduz o conceito de 'colapso de template', uma falha em agentes LLM de múltiplas interações onde a resposta se torna agnóstica à entrada, mesmo com entropia estável. Propõe a Informação Mútua (MI) como uma métrica superior à entropia para diagnosticar a qualidade do raciocínio, correlacionando-se mais fortemente com o desempenho final.

LLMs reinforcement learning Reasoning Evaluation Metrics

RESEARCHarXiv CS.LG·1/5/2026

Fidelity, Diversity, and Privacy: A Multi-Dimensional LLM Evaluation for Clinical Data Augmentation

Esta investigación propone el uso de LLMs (DeepSeek-R1, OpenBioLLM-Llama3, Qwen 3.5) para la aumentación de datos sintéticos de salud mental, abordando la escasez y las regulaciones de privacidad. Se introduce un marco de evaluación integral que examina la fidelidad semántica, la diversidad léxica y la privacidad/plagio para mitigar riesgos como el colapso de modo o la memorización.

synthetic data LLMs security Data Augmentation

RESEARCHarXiv CS.CL·30/4/2026

MATH-PT: A Math Reasoning Benchmark for European and Brazilian Portuguese

Este artículo introduce MATH-PT, un nuevo conjunto de datos de 1.729 problemas matemáticos en portugués europeo y brasileño, para abordar el sesgo lingüístico en la evaluación del razonamiento matemático de LLMs. La evaluación de modelos de vanguardia muestra un buen rendimiento en preguntas de opción múltiple, pero su rendimiento disminuye en preguntas abiertas.

Dataset mathematical reasoning LLMs benchmarking

RESEARCHarXiv CS.CL·1/5/2026

Cross-Lingual Response Consistency in Large Language Models: An ILR-Informed Evaluation of Claude Across Six Languages

Este estudio introduce un marco de evaluación basado en ILR para analizar la consistencia de respuestas interlingüísticas de Claude (Sonnet 4.6) en seis idiomas. A través de métricas cuantitativas y evaluación cualitativa, se identifican variaciones como diferencias en la longitud de las respuestas y divergencias superficiales en grupos creativos.

Multilingual AI LLMs AI evaluation

RESEARCHarXiv CS.CL·30/4/2026

Analysing Lightweight Large Language Models for Biomedical Named Entity Recognition on Diverse Ouput Formats

Esta investigación examina el uso de LLMs ligeros para el Reconocimiento de Entidades Nombradas Biomédicas, demostrando su rendimiento competitivo frente a modelos más grandes. El estudio resalta su potencial como alternativas eficientes en recursos e identifica formatos de salida específicos que mejoran consistentemente el rendimiento.

LLMs named entity recognition Model Evaluation NLP

RESEARCHarXiv CS.LG·1/5/2026

Automatic Causal Fairness Analysis with LLM-Generated Reporting

El prototipo de software `FairMind` automatiza el análisis de equidad causal a nivel de conjunto de datos, abordando la falta de consideración de equidad en la mayoría de los frameworks de AutoML. Utiliza el modelo estándar de equidad y LLMs para generar informes precisos sobre la equidad basados en efectos causales contrafactuales.

LLMs causal AI AI ethics fairness

RESEARCHarXiv CS.CL·16/4/2026

Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling

Este artículo sostiene que el cuello de botella principal en la escalabilidad multimodal de los MLLM es la densidad de conocimiento en los datos de entrenamiento, no el formato de la tarea. Demuestra que la supervisión específica de la tarea como VQA aporta poca información incremental más allá de los subtítulos de imagen y que aumentar la densidad de conocimiento mejora consistentemente el rendimiento.

multimodal AI LLMs machine learning Research Paper