← heapsort-ai

Natural Language Processing

168 items

ARTICLEDEV.to AI·hace 15d

GLM-4: The Chinese-English Bilingual Workhorse You Didn't Know You Needed

GLM-4 es un modelo de IA bilingüe chino-inglés de la Universidad de Tsinghua / Zhipu AI, optimizado desde cero para ambos idiomas, a diferencia de la mayoría de los modelos centrados en inglés. Presenta una arquitectura de Mezcla de Expertos para inferencia rápida, contexto largo de hasta 128K tokens y un enfoque en llamadas a funciones y flujos de trabajo de agentes.

27
ARTICLEDEV.to AI·19/4/2026

Attention Mechanisms: Stop Compressing, Start Looking Back

Este artículo explora las limitaciones de las LSTMs para mantener el contexto, a pesar de su capacidad de memoria mejorada en comparación con las RNNs básicas. El autor utiliza una experiencia personal de aprendizaje de inglés para ilustrar los tres problemas específicos que las LSTMs aún no resuelven, sentando las bases para discutir los mecanismos de atención.

27
RESEARCHarXiv CS.CL·15/4/2026

Leveraging Weighted Syntactic and Semantic Context Assessment Summary (wSSAS) Towards Text Categorization Using LLMs

Este artículo presenta el Weighted Syntactic and Semantic Context Assessment Summary (wSSAS), un marco determinista para optimizar la categorización de texto con LLMs. Aborda las limitaciones de los LLMs organizando el texto jerárquicamente y utilizando una relación señal-ruido (SNR) para priorizar características semánticas de alto valor.

27
RESEARCHarXiv CS.CL·5/5/2026

Psychologically Potent, Computationally Invisible: LLMs Generate Social-Comparison Triggers They Fail to Detect

Este artículo presenta XHS-SCoRE, un benchmark basado en lectores para detectar si una publicación de texto de Xiaohongshu (RedNote) provoca comparación social ascendente, descendente o neutra. El estudio revela una inconsistencia entre la fluidez de generación de los LLM y su capacidad de detección confiable, mostrando que los LLM generan desencadenantes de comparación social que no logran detectar de manera robusta.

27
RESEARCHarXiv CS.CL·5/5/2026

Controlled Paraphrase Geometry in Sentence Embedding Space: Local Manifold Modeling and Latent Probing

Este artículo estudia la geometría local de las nubes de incrustación inducidas por clases controladas de oraciones semánticamente cercanas. Los autores introducen un esquema de modelado geométrico local y un procedimiento de sondeo latente para analizar el espacio de representación y modelar variedades locales.

27
RESEARCHarXiv CS.CL·10/4/2026

TR-EduVSum: A Turkish-Focused Dataset and Consensus Framework for Educational Video Summarization

Este estudo apresenta o dataset TR-EduVSum, focado em vídeos educacionais turcos, e propõe o método AutoMUP. Este método gera resumos padrão-ouro de forma automática e reproduzível a partir de múltiplos resumos humanos, usando agrupamento de unidades de significado e modelagem estatística de consenso.

27
RESEARCHarXiv CS.CL·5/5/2026

Compared to What? Baselines and Metrics for Counterfactual Prompting

Este trabajo argumenta que los efectos observados del "prompting contrafactual" en LLMs no pueden atribuirse a un factor objetivo sin considerar modificaciones de texto que preserven el significado y establezcan la sensibilidad general del modelo. La investigación muestra que las tasas de cambio de predicción al modificar el género del paciente son indistinguibles de las tasas inducidas por simples paráfrasis, sugiriendo que no se puede concluir una sensibilidad especial al género del paciente.

27
RESEARCHarXiv CS.CL·27/4/2026

An End-to-End Ukrainian RAG for Local Deployment. Optimized Hybrid Search and Lightweight Generation

Este artículo presenta un sistema eficiente de Generación Aumentada por Recuperación (RAG) para responder preguntas en documentos ucranianos, el cual obtuvo el 2º lugar en la UNLP 2026 Shared Task. Utiliza una búsqueda híbrida personalizada y un modelo de lenguaje ucraniano optimizado y comprimido para una implementación local de alta calidad en hardware con recursos limitados.

27
RESEARCHarXiv CS.CL·9/4/2026

Beyond Facts: Benchmarking Distributional Reading Comprehension in Large Language Models

Este artigo introduz o Text2DistBench, um novo benchmark para avaliar a capacidade de LLMs inferirem conhecimento distribucional a partir de linguagem natural. Diferente dos benchmarks tradicionais, ele foca em tarefas do mundo real, como estimar proporções de sentimentos ou identificar tópicos frequentes em coleções de texto como comentários do YouTube.

27
RESEARCHarXiv CS.CL·30/4/2026

MATH-PT: A Math Reasoning Benchmark for European and Brazilian Portuguese

Este artículo introduce MATH-PT, un nuevo conjunto de datos de 1.729 problemas matemáticos en portugués europeo y brasileño, para abordar el sesgo lingüístico en la evaluación del razonamiento matemático de LLMs. La evaluación de modelos de vanguardia muestra un buen rendimiento en preguntas de opción múltiple, pero su rendimiento disminuye en preguntas abiertas.

27
RESEARCHarXiv CS.CL·1/5/2026

BatteryPass-12K: The First Dataset for the Novel Digital Battery Passport Conformance Task

Este artículo introduce BatteryPass-12K, el primer conjunto de datos público para la novedosa tarea de clasificación de conformidad de pasaportes digitales de baterías (DBP), abordando una necesidad crítica antes de las nuevas regulaciones de la UE. Se evaluaron 22 modelos de lenguaje, revelando que los modelos de "Pensamiento" como GPT-5.4 logran el mejor rendimiento y que los ejemplos few-shot mejoran significativamente los resultados.

27
RESEARCHarXiv CS.CL·16/4/2026

A Proactive EMR Assistant for Doctor-Patient Dialogue: Streaming ASR, Belief Stabilization, and Preliminary Controlled Evaluation

Este artículo presenta un asistente proactivo de EMR para el diálogo médico-paciente, que supera los sistemas pasivos al integrar ASR en streaming, estabilización de creencias y planificación de acciones. El sistema fue evaluado en un entorno controlado preliminar, logrando un F1 de 0.84 y Recall@5 de 0.87.

27
RESEARCHarXiv CS.CL·30/4/2026

CogRAG+: Cognitive-Level Guided Diagnosis and Remediation of Memory and Reasoning Deficiencies in Professional Exam QA

CogRAG+ es un marco sin entrenamiento diseñado para diagnosticar y remediar deficiencias de memoria y razonamiento en LLMs para exámenes profesionales. Desacopla y alinea la recuperación y el razonamiento con jerarquías cognitivas humanas, utilizando estrategias como Reinforced Retrieval y Constrained Reasoning para mejorar la precisión y consistencia.

27