← heapsort-ai

Natural Language Processing

168 items

RESEARCHarXiv CS.CL·17/4/2026

Chinese Essay Rhetoric Recognition Using LoRA, In-context Learning and Model Ensemble

Este artículo investiga el reconocimiento de la retórica en ensayos chinos utilizando Large Language Models (LLMs), LoRA y aprendizaje en contexto para evaluar habilidades lingüísticas. El método propuesto logró el mejor rendimiento y ganó el primer premio en la tarea de evaluación de reconocimiento de la retórica de ensayos chinos del CCL 2025.

27
RESEARCHarXiv CS.CL·hace 20d

Parallel LLM Reasoning for Bias-Resilient, Robust Conceptual Abstraction

Este estudio propone un marco estructurado para mejorar el razonamiento de los LLM al analizar documentos extensos, abordando el sesgo contextual y los errores de omisión. Combina el procesamiento paralelo a nivel de fragmento con la consolidación anclada en evidencia para generar abstracciones conceptuales más robustas y resistentes al sesgo.

27
RESEARCHarXiv CS.CL·17/4/2026

Decoupling Scores and Text: The Politeness Principle in Peer Review

Este estudio investiga la dificultad de interpretar la retroalimentación de la revisión por pares, comparando la eficacia de las puntuaciones numéricas frente a los textos en la predicción de aceptación. La investigación revela que los modelos basados en puntuaciones son significativamente más precisos (91%) que los modelos basados en texto (81% con LLMs), indicando que la información textual es menos fiable.

27
RESEARCHarXiv CS.CL·8/5/2026

Generating Query-Focused Summarization Datasets from Query-Free Summarization Datasets

Este artículo propone un modelo basado en evidencia para generar consultas a partir de conjuntos de datos de resumen sin consulta, abordando la escasez de datos para la Sumarización Enfocada en Consultas (QFS). Los resultados experimentales indican que los resúmenes generados con estas consultas basadas en evidencia logran puntuaciones ROUGE competitivas, demostrando su eficacia para la tarea de QFS.

27
RESEARCHarXiv CS.CL·8/5/2026

AdaGATE: Adaptive Gap-Aware Token-Efficient Evidence Assembly for Multi-Hop Retrieval-Augmented Generation

AdaGATE es un controlador de evidencia sin entrenamiento para la Generación Aumentada por Recuperación (RAG) de múltiples saltos, diseñado para abordar la evidencia ruidosa o redundante en contextos limitados. Enfoca la selección de evidencia como un problema de reparación con restricción de tokens, combinando el seguimiento de brechas y la generación de micro-consultas para equilibrar cobertura, corroboración y novedad.

27
RESEARCHarXiv CS.CL·20/4/2026

Applied Explainability for Large Language Models: A Comparative Study

Este artículo presenta un estudio comparativo de tres técnicas de explicabilidad (Integrated Gradients, Attention Rollout y SHAP) aplicadas a un modelo DistilBERT para clasificación de sentimientos. Los resultados muestran que la atribución basada en gradientes proporciona explicaciones más estables e intuitivas, mientras que los métodos basados en atención son eficientes pero menos alineados con las características predictivas.

27
RESEARCHarXiv CS.CL·24/4/2026

Hierarchical Policy Optimization for Simultaneous Translation of Unbounded Speech

Este trabajo presenta la Optimización Jerárquica de Políticas (HPO) para la Traducción Simultánea de Voz (SST) utilizando LLMs, abordando desafíos como el alto costo computacional y datos imperfectos. HPO utiliza una recompensa jerárquica para equilibrar la calidad de traducción y la latencia, demostrando mejoras significativas en las puntuaciones COMET y MetricX.

27
RESEARCHarXiv CS.CL·21/4/2026

Cross-Family Speculative Decoding for Polish Language Models on Apple~Silicon: An Empirical Evaluation of Bielik~11B with UAG-Extended MLX-LM

Esta investigación evalúa la decodificación especulativa entre familias para LLMs polacos en Apple Silicon, extendiendo el framework MLX-LM con Generación Asistida Universal (UAG) para compatibilidad entre tokenizadores. Los experimentos demuestran que la traducción de tokens consciente del contexto mejora significativamente las tasas de aceptación del Bielik 11B en conjuntos de datos en polaco.

27
ARTICLEDEV.to AI·16/4/2026

From Mumbles to Memos: Teaching AI to Understand Technician Voice Notes and Jargon

Este contenido discute cómo los propietarios de negocios locales de HVAC o plomería pierden tiempo descifrando manualmente notas de voz de técnicos llenas de jerga. Propone usar IA para automatizar esto, entrenándola para extraer datos específicos y estructurados del habla no estructurada, superando este cuello de botella empresarial.

27
RESEARCHarXiv CS.CL·21/4/2026

CFMS: Towards Explainable and Fine-Grained Chinese Multimodal Sarcasm Detection Benchmark

CFMS presenta el primer benchmark chino de detección de sarcasmo multimodal y de grano fino, que comprende 2.796 pares de imagen-texto con anotaciones de triple nivel. Este conjunto de datos busca mejorar la comprensión semántica fina y el razonamiento metafórico en los modelos de IA, abordando las limitaciones de los benchmarks existentes.

27
RESEARCHarXiv CS.LG·24/4/2026

Absorber LLM: Harnessing Causal Synchronization for Test-Time Training

Los Transformers sufren altos costos computacionales y consumo de memoria para secuencias largas, mientras que las alternativas pierden dependencias a largo plazo. Absorber LLM propone una sincronización causal auto-supervisada para absorber contextos históricos en los parámetros, asegurando que un modelo sin contexto coincida con el original de contexto completo en generaciones futuras.

27
RESEARCHarXiv CS.CL·21/4/2026

LiFT: Does Instruction Fine-Tuning Improve In-Context Learning for Longitudinal Modelling by Large Language Models?

LiFT es un nuevo marco de ajuste fino por instrucción que busca mejorar el aprendizaje en contexto de los LLM para tareas de PNL longitudinales, que requieren razonamiento sobre texto ordenado temporalmente. Emplea un currículo que aumenta progresivamente la dificultad temporal, incorporando estructura de pocas-muestras y condicionamiento temporal, superando consistentemente a los modelos base en diversos conjuntos de datos y tamaños de parámetros.

27
RESEARCHarXiv CS.CL·hace 26d

Derivation Prompting: A Logic-Based Method for Improving Retrieval-Augmented Generation

Este artículo presenta Derivation Prompting, una nueva técnica de prompting para el framework de Generación Aumentada por Recuperación (RAG). El método busca reducir las alucinaciones y el razonamiento erróneo en los Large Language Models (LLMs) mediante la aplicación sistemática de reglas lógicas para derivar conclusiones. Un estudio de caso demostró una reducción significativa de respuestas inaceptables en comparación con los métodos RAG tradicionales.

27
RESEARCHarXiv CS.CL·7/5/2026

FMI_SU_Yotkova_Kastreva at SemEval-2026 Task 13: Lightweight Detection of LLM-Generated Code via Stylometric Signals

Este artículo describe la participación en la Tarea 13 de SemEval-2026, centrada en la detección ligera de código generado por LLM mediante señales estilométricas. La metodología utiliza características basadas en proporciones, motores de análisis y clasificadores de lenguaje, siendo computacionalmente eficiente con un tiempo de inferencia casi instantáneo.

27
RESEARCHarXiv CS.CL·11/5/2026

Can LLMs Take Retrieved Information with a Grain of Salt?

Este artículo evalúa la capacidad de los grandes modelos de lenguaje (LLMs) para adaptar sus respuestas a la certeza de la información recuperada, revelando limitaciones sistemáticas. Propone una estrategia de interacción que combina recordatorios previos, recalibración de certeza y simplificación de contexto para mejorar la fiabilidad de los LLMs. Este enfoque reduce los errores de obediencia en un 25% sin modificar los pesos del modelo.

27
RESEARCHarXiv CS.CL·hace 22d

Exploring Lightweight Large Language Models for Court View Generation

La investigación explora las capacidades de los Modelos de Lenguaje Grandes y Ligeros (LLM) en la Generación de Vistas Judiciales Criminales (CVG) y su impacto en la predicción de cargos en la IA Legal. El estudio investiga sistemáticamente arquitecturas, tamaño de LLM y compara con Redes Neuronales Profundas, además de introducir el framework CVGEvalKit para evaluación.

27
RESEARCHarXiv CS.CL·11/5/2026

MultiSoc-4D: A Benchmark for Diagnosing Instruction-Induced Label Collapse in Closed-Set LLM Annotation of Bengali Social Media

MultiSoc-4D es un nuevo benchmark de datos de redes sociales bengalíes para diagnosticar el comportamiento de los LLM en la anotación de conjuntos cerrados. La investigación revela un fenómeno de "colapso de etiquetas inducido por instrucciones", donde los LLM prefieren sistemáticamente etiquetas de respaldo, subdetectando categorías minoritarias.

27
RESEARCHarXiv CS.CL·hace 22d

A Scalable Tool for Measuring Manner and Result Verbs in Developmental Language Research

Esta investigación presenta un enfoque computacional escalable para medir verbos de manera y resultado, una distinción crucial para los estudios de desarrollo del lenguaje. Utiliza grandes modelos de lenguaje para anotaciones de oraciones y entrena un clasificador basado en RoBERTa, mostrando un rendimiento prometedor en conjuntos de datos de evaluación.

27