LLMs

722 items

RESEARCHarXiv CS.CL·24/4/2026

TRACES: Tagging Reasoning Steps for Adaptive Cost-Efficient Early-Stopping

Este artículo presenta TRACES, un framework ligero diseñado para optimizar los Modelos de Razonamiento del Lenguaje (LRMs) etiquetando los pasos de razonamiento en tiempo real. Permite la detención temprana adaptativa y costo-eficiente de las inferencias de LRM, abordando su ineficiencia actual y la sobre-generación de pasos de verificación.

LLMs early stopping Reasoning inference optimization

RESEARCHarXiv CS.AI·4/5/2026

Minimal, Local, Causal Explanations for Jailbreak Success in Large Language Models

Este artículo explora explicaciones mínimas, locales y causales para el éxito de los ataques de jailbreak en grandes modelos de lenguaje (LLMs). La investigación aborda la falta de una comprensión robusta sobre la vulnerabilidad de los LLMs a estos ataques, que permiten respuestas dañinas a pesar de su entrenamiento de seguridad.

LLMs jailbreak security AI safety

RESEARCHarXiv CS.CL·24/4/2026

AFRILANGTUTOR: Advancing Language Tutoring and Culture Education in Low-Resource Languages with Large Language Models

Este artículo presenta AFRILANGDICT, una colección de entradas de diccionario de idiomas africanos-inglés, y AFRILANGEDU, un conjunto de datos. Estos recursos se utilizan para entrenar modelos de IA, denominados AFRILANGTUTOR, para la tutoría de idiomas en lenguas africanas con pocos recursos, abordando la escasez de sistemas de IA para idiomas locales en el continente africano.

LLMs language education Africa Low-resource languages

RESEARCHarXiv CS.CL·4/5/2026

Cultural Benchmarking of LLMs in Standard and Dialectal Arabic Dialogues

Una nueva investigación aborda la brecha en la evaluación del razonamiento cultural en LLMs, presentando ArabCulture-Dialogue, un conjunto de datos conversacionales culturalmente fundamentado que cubre 13 países de habla árabe. Los experimentos indican que los modelos rinden peor en tareas de razonamiento cultural, traducción y generación en configuraciones dialectales en comparación con el árabe estándar moderno.

LLMs Arabic dialects cultural reasoning benchmarking

RESEARCHarXiv CS.AI·hace 18d

MindLoom: Composing Thought Modes for Frontier-Level Reasoning Data Synthesis

MindLoom es un marco para sintetizar datos de razonamiento de nivel de frontera, abordando la diversidad limitada y el control inestable de la dificultad de los métodos existentes. Descompone las soluciones de los problemas en "cadenas de modos de pensamiento" y entrena un modelo de recuperación para guiar el proceso de razonamiento.

data synthesis Thought Modes LLMs AI frameworks

RESEARCHarXiv CS.LG·hace 18d

Harnesses for Inference-Time Alignment over Execution Trajectories

Esta investigación examina la ingeniería de arneses como una técnica de tiempo de inferencia para agentes de modelos de lenguaje grandes (LLM), con el objetivo de mejorar el rendimiento a largo plazo mediante la descomposición de tareas y la ejecución guiada. Cuantifica cómo los elementos de diseño, como la granularidad del flujo de trabajo y la orientación, afectan el rendimiento, revelando modos de falla comunes como la sobredescomposición y la ejecución alucinada.

inference LLMs machine learning Task Decomposition

RESEARCHarXiv CS.CL·21/4/2026

Multimodal Claim Extraction for Fact-Checking

Este trabajo presenta el primer benchmark para la extracción multimodal de afirmaciones de publicaciones en redes sociales, fundamental para la verificación automatizada de hechos. Evalúa los MLLM de última generación y propone MICE, un framework consciente de la intención, para abordar los desafíos en el modelado de la intención retórica y las señales contextuales.

multimodal AI LLMs social media misinformation

RESEARCHarXiv CS.CL·21/4/2026

LiFT: Does Instruction Fine-Tuning Improve In-Context Learning for Longitudinal Modelling by Large Language Models?

LiFT es un nuevo marco de ajuste fino por instrucción que busca mejorar el aprendizaje en contexto de los LLM para tareas de PNL longitudinales, que requieren razonamiento sobre texto ordenado temporalmente. Emplea un currículo que aumenta progresivamente la dificultad temporal, incorporando estructura de pocas-muestras y condicionamiento temporal, superando consistentemente a los modelos base en diversos conjuntos de datos y tamaños de parámetros.

LLMs temporal reasoning Natural Language Processing in-context learning

RESEARCHarXiv CS.CL·hace 26d

PEML: Parameter-efficient Multi-Task Learning with Optimized Continuous Prompts

El artículo presenta PEML, un método para el aprendizaje multi-tarea eficiente en parámetros con prompts continuos optimizados para Grandes Modelos de Lenguaje. Aborda las deficiencias de los métodos PEFT existentes como LoRA y Prefix Tuning, permitiendo un ajuste fino más eficiente para múltiples tareas y facilitando la consolidación de recursos.

Resource efficiency multi-task learning LLMs Prompt tuning

RESEARCHarXiv CS.CL·hace 26d

Derivation Prompting: A Logic-Based Method for Improving Retrieval-Augmented Generation

Este artículo presenta Derivation Prompting, una nueva técnica de prompting para el framework de Generación Aumentada por Recuperación (RAG). El método busca reducir las alucinaciones y el razonamiento erróneo en los Large Language Models (LLMs) mediante la aplicación sistemática de reglas lógicas para derivar conclusiones. Un estudio de caso demostró una reducción significativa de respuestas inaceptables en comparación con los métodos RAG tradicionales.

LLMs RAG Prompting Natural Language Processing

RESEARCHarXiv CS.LG·24/4/2026

Reinforcing privacy reasoning in LLMs via normative simulacra from fiction

Este artículo propone un nuevo método para mejorar el razonamiento de privacidad en LLMs extrayendo simulacros normativos de novelas de ficción. El enfoque implica el ajuste fino de LLMs mediante aprendizaje supervisado seguido de aprendizaje por refuerzo GRPO, utilizando una función de recompensa compuesta para alinear las prácticas de manejo de información con las expectativas de privacidad del usuario.

LLMs privacy security machine learning

RESEARCHarXiv CS.CL·7/5/2026

Adapt to Thrive! Adaptive Power-Mean Policy Optimization for Improved LLM Reasoning

Esta investigación propone la Optimización de Política de Media de Potencia Adaptativa (APMPO) para mejorar el razonamiento de Modelos de Lenguaje Grandes (LLMs) mediante RLVR. APMPO utiliza un objetivo de media de potencia generalizado y un recorte adaptable por retroalimentación para mejorar la dinámica de aprendizaje y el rendimiento.

Policy optimization LLMs reinforcement learning machine learning

RESEARCHarXiv CS.CL·hace 8d

ART: Attention Run-time Termination for Efficient Large Language Model Decoding

La decodificación de contexto largo en Large Language Models (LLMs) está severamente limitada por el ancho de banda de la memoria del caché Key-Value (KV). Este artículo propone Attention Run-time Termination (ART), un mecanismo ligero que optimiza el acceso al caché KV, logrando un 20% más de rendimiento de generación.

LLMs memory management decoding performance

RESEARCHarXiv CS.CL·11/5/2026

Can LLMs Take Retrieved Information with a Grain of Salt?

Este artículo evalúa la capacidad de los grandes modelos de lenguaje (LLMs) para adaptar sus respuestas a la certeza de la información recuperada, revelando limitaciones sistemáticas. Propone una estrategia de interacción que combina recordatorios previos, recalibración de certeza y simplificación de contexto para mejorar la fiabilidad de los LLMs. Este enfoque reduce los errores de obediencia en un 25% sin modificar los pesos del modelo.

LLMs context certainty Natural Language Processing AI reliability

RESEARCHarXiv CS.CL·24/4/2026

DWTSumm: Discrete Wavelet Transform for Document Summarization

Esta investigación propone un marco basado en la Transformada Wavelet Discreta (DWT) para mejorar la creación de resúmenes de documentos, especialmente para textos largos y específicos de dominio donde los LLM tienen dificultades. El método genera representaciones compactas que mejoran la similitud semántica, la fundamentación y la coherencia factual en comparación con una base GPT-4o.

LLMs wavelet transform NLP Document Summarization

RESEARCHarXiv CS.CL·11/5/2026

Reflections and New Directions for Human-Centered Large Language Models

Este trabajo presenta un marco para el desarrollo de Modelos de Lenguaje Grandes Centrados en el Humano (HCLLMs), que integra perspectivas de PNL, IHC e IA responsable. Argumenta la necesidad de abordar las preocupaciones, preferencias y valores humanos con rigor en cada etapa del desarrollo de LLM, y no solo en una fase posterior al entrenamiento.

LLMs HCI NLP AI ethics

RESEARCHarXiv CS.LG·hace 26d

Towards the Next Frontier of LLMs, Training on Private Data: A Cross-Domain Benchmark for Federated Fine-Tuning

El artículo aborda el desafío de entrenar grandes modelos de lenguaje (LLMs) con datos privados y distribuidos, especialmente en sectores regulados como la salud y las finanzas. Propone un enfoque práctico para aprovechar estos datos valiosos, pero no compartibles y no-IID, con el objetivo de dotar a los LLMs de una experiencia de dominio más profunda.

LLMs private data privacy benchmarking

RESEARCHarXiv CS.CL·11/5/2026

MultiSoc-4D: A Benchmark for Diagnosing Instruction-Induced Label Collapse in Closed-Set LLM Annotation of Bengali Social Media

MultiSoc-4D es un nuevo benchmark de datos de redes sociales bengalíes para diagnosticar el comportamiento de los LLM en la anotación de conjuntos cerrados. La investigación revela un fenómeno de "colapso de etiquetas inducido por instrucciones", donde los LLM prefieren sistemáticamente etiquetas de respaldo, subdetectando categorías minoritarias.

LLMs Natural Language Processing Data Annotation benchmarks

RESEARCHarXiv CS.CL·7/5/2026

Are LLMs Ready for Conflict Monitoring? Empirical Evidence from West Africa

Este artículo evalúa modelos de lenguaje grandes (LLMs) de código abierto y adaptados al dominio para la clasificación de eventos de conflicto en África Occidental. La investigación revela que los modelos de código abierto exhiben un sesgo de "Ilegitimación Falsa", mientras que los modelos adaptados al dominio logran neutralidad direccional pero mantienen un sesgo de selección basado en actores.

LLMs Model Evaluation Conflict Monitoring Humanitarian Accountability

RESEARCHarXiv CS.CL·7/5/2026

Free Energy-Driven Reinforcement Learning with Adaptive Advantage Shaping for Unsupervised Reasoning in LLMs

FREIA es un algoritmo novedoso de aprendizaje por refuerzo que mejora los LLM para el razonamiento no supervisado, abordando la falta de adaptabilidad en los métodos existentes. Utiliza la Recompensa Impulsada por Energía Libre (FER) para equilibrar el consenso y la exploración, y la Configuración Adaptativa de Ventaja (AAS) para ajustar las señales de aprendizaje. FREIA supera a las bases de referencia no supervisadas en tareas de razonamiento, especialmente en matemáticas.

LLMs reinforcement learning AI algorithms Reasoning