← heapsort-ai

LLMs

723 items

RESEARCHarXiv CS.LG·13/4/2026

Distributionally Robust Token Optimization in RLHF

Para abordar la susceptibilidad de los LLMs a fallos por pequeños cambios en las instrucciones, especialmente en el razonamiento de varios pasos, los investigadores proponen la Optimización de Tokens Robusta Distribucionalmente (DRTO). Este enfoque combina el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) a nivel de token con la Optimización Robusta Distribucionalmente (DRO) para mejorar la consistencia bajo cambios de distribución, mostrando mejoras en benchmarks de razonamiento matemático.

27
RESEARCHarXiv CS.CL·14/4/2026

Spoiler Alert: Narrative Forecasting as a Metric for Tension in LLM Storytelling

Esta investigación presenta la métrica '100-Endings' para abordar el fracaso de los LLM en generar historias convincentes y en reconocer sus propios problemas de calidad. La métrica mide la tensión narrativa prediciendo 100 finales frase por frase, demostrando ser más eficaz que las rúbricas actuales para distinguir narrativas humanas de alta calidad de las salidas de IA.

27
RESEARCHarXiv CS.CL·5/5/2026

CLEAR: Revealing How Noise and Ambiguity Degrade Reliability in LLMs for Medicine

Se introduce el framework CLEAR para evaluar cómo la ambigüedad y la incerteza afectan la fiabilidad de los Modelos de Lenguaje Grandes (LLMs) médicos, yendo más allá de los benchmarks simplificados. Perturba sistemáticamente las opciones de respuesta y su encuadre semántico, revelando que el aumento de respuestas plausibles degrada el rendimiento de los LLMs y la precaución disminuye con un fraseo incierto de abstención.

27
RESEARCHarXiv CS.CL·1/5/2026

Semantic Structure of Feature Space in Large Language Models

Este estudio demuestra que las relaciones geométricas entre las características semánticas en los estados ocultos de los LLMs reflejan fielmente las asociaciones psicológicas humanas. La investigación muestra que las proyecciones de vectores de palabras en ejes semánticos se correlacionan con las valoraciones humanas, y la similitud entre estos ejes predice la interconexión de las escalas semánticas.

27
RESEARCHarXiv CS.AI·9/5/2026

BALAR : A Bayesian Agentic Loop for Active Reasoning

Este artículo presenta BALAR (Bayesian Agentic Loop for Active Reasoning), un algoritmo de bucle externo agnóstico a la tarea que permite la interacción estructurada en múltiples turnos entre un agente LLM y un usuario. BALAR mantiene una creencia estructurada sobre estados latentes, selecciona preguntas aclaratorias maximizando la información mutua esperada y supera significativamente a los modelos de referencia en diversos puntos de referencia de razonamiento.

27
RESEARCHarXiv CS.CL·9/4/2026

Beyond Facts: Benchmarking Distributional Reading Comprehension in Large Language Models

Este artigo introduz o Text2DistBench, um novo benchmark para avaliar a capacidade de LLMs inferirem conhecimento distribucional a partir de linguagem natural. Diferente dos benchmarks tradicionais, ele foca em tarefas do mundo real, como estimar proporções de sentimentos ou identificar tópicos frequentes em coleções de texto como comentários do YouTube.

27
RESEARCHarXiv CS.AI·25/4/2026

Escaping the Agreement Trap: Defensibility Signals for Evaluating Rule-Governed AI

Este artículo presenta un nuevo marco para evaluar la IA gobernada por reglas, especialmente en la moderación de contenido, yendo más allá de las métricas de acuerdo simples. Propone el Defensibility Index (DI), Ambiguity Index (AI) y Probabilistic Defensibility Signal (PDS) para evaluar la corrección basada en políticas y la estabilidad del razonamiento, utilizando trazas de LLM para verificar la derivabilidad lógica de las reglas.

27
RESEARCHarXiv CS.LG·14/4/2026

A Comparative Theoretical Analysis of Entropy Control Methods in Reinforcement Learning

Este artículo presenta un análisis teórico comparativo de estrategias de control de entropía en Aprendizaje por Refuerzo, enfocándose en la regularización tradicional versus un mecanismo basado en covarianza para el entrenamiento de LLMs. Establece un marco unificado, mostrando que los métodos basados en covarianza logran una imparcialidad asintótica al regularizar selectivamente, a diferencia de los métodos tradicionales que introducen un sesgo persistente.

27
RESEARCHarXiv CS.CL·9/4/2026

Cross-Lingual Transfer and Parameter-Efficient Adaptation in the Turkic Language Family: A Theoretical Framework for Low-Resource Language Models

Este artigo propõe um arcabouço teórico para estudar a transferência interlinguística e a adaptação eficiente de parâmetros em LLMs multilingues para a família de línguas túrquicas. Ele busca abordar a sub-representação de línguas de baixos recursos nesses modelos, como azerbaijano, cazaque, uzbeque, turcomeno e gagauz.

27
RESEARCHarXiv CS.CL·30/4/2026

LLMs Generate Kitsch

Este artículo propone que los Large Language Models (LLMs) generan sistemáticamente kitsch, lo cual es una consecuencia de su entrenamiento. Empíricamente, el estudio muestra que los lectores perciben las historias generadas por LLMs como más kitsch, con implicaciones para el diseño de futuros estudios y tareas creativas.

27
RESEARCHarXiv CS.LG·9/4/2026

RAGEN-2: Reasoning Collapse in Agentic RL

Este estudo introduz o conceito de 'colapso de template', uma falha em agentes LLM de múltiplas interações onde a resposta se torna agnóstica à entrada, mesmo com entropia estável. Propõe a Informação Mútua (MI) como uma métrica superior à entropia para diagnosticar a qualidade do raciocínio, correlacionando-se mais fortemente com o desempenho final.

27
RESEARCHarXiv CS.LG·1/5/2026

Fidelity, Diversity, and Privacy: A Multi-Dimensional LLM Evaluation for Clinical Data Augmentation

Esta investigación propone el uso de LLMs (DeepSeek-R1, OpenBioLLM-Llama3, Qwen 3.5) para la aumentación de datos sintéticos de salud mental, abordando la escasez y las regulaciones de privacidad. Se introduce un marco de evaluación integral que examina la fidelidad semántica, la diversidad léxica y la privacidad/plagio para mitigar riesgos como el colapso de modo o la memorización.

27
RESEARCHarXiv CS.CL·30/4/2026

MATH-PT: A Math Reasoning Benchmark for European and Brazilian Portuguese

Este artículo introduce MATH-PT, un nuevo conjunto de datos de 1.729 problemas matemáticos en portugués europeo y brasileño, para abordar el sesgo lingüístico en la evaluación del razonamiento matemático de LLMs. La evaluación de modelos de vanguardia muestra un buen rendimiento en preguntas de opción múltiple, pero su rendimiento disminuye en preguntas abiertas.

27
RESEARCHarXiv CS.CL·1/5/2026

Cross-Lingual Response Consistency in Large Language Models: An ILR-Informed Evaluation of Claude Across Six Languages

Este estudio introduce un marco de evaluación basado en ILR para analizar la consistencia de respuestas interlingüísticas de Claude (Sonnet 4.6) en seis idiomas. A través de métricas cuantitativas y evaluación cualitativa, se identifican variaciones como diferencias en la longitud de las respuestas y divergencias superficiales en grupos creativos.

27
RESEARCHarXiv CS.CL·30/4/2026

Analysing Lightweight Large Language Models for Biomedical Named Entity Recognition on Diverse Ouput Formats

Esta investigación examina el uso de LLMs ligeros para el Reconocimiento de Entidades Nombradas Biomédicas, demostrando su rendimiento competitivo frente a modelos más grandes. El estudio resalta su potencial como alternativas eficientes en recursos e identifica formatos de salida específicos que mejoran consistentemente el rendimiento.

27
RESEARCHarXiv CS.CL·16/4/2026

Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling

Este artículo sostiene que el cuello de botella principal en la escalabilidad multimodal de los MLLM es la densidad de conocimiento en los datos de entrenamiento, no el formato de la tarea. Demuestra que la supervisión específica de la tarea como VQA aporta poca información incremental más allá de los subtítulos de imagen y que aumentar la densidad de conocimiento mejora consistentemente el rendimiento.

27