← heapsort-ai

large language models

265 items

RESEARCHarXiv CS.AI·30/4/2026

Operating-Layer Controls for Onchain Language-Model Agents Under Real Capital

Esta investigación estudia la fiabilidad de agentes autónomos de modelos de lenguaje que negocian ETH real en un mercado onchain, demostrado por un despliegue de 21 días que generó millones de invocaciones y $20M en volumen. El estudio mostró un 99.9% de éxito en la liquidación, proporcionando un rastro a gran escala para analizar la robustez de estos sistemas más allá del modelo base.

27
RESEARCHarXiv CS.CL·14/4/2026

HumorGen: Cognitive Synergy for Humor Generation in Large Language Models via Persona-Based Distillation

Esta investigación presenta el Cognitive Synergy Framework para abordar el desafío de la generación de humor en LLMs, que entra en conflicto con su objetivo estándar de predecir la siguiente palabra. Utiliza un enfoque Mixture-of-Thought con seis personas cognitivas para sintetizar diversas perspectivas cómicas, creando un conjunto de datos teóricamente fundamentado utilizado para afinar un modelo de 7B parámetros que supera a líneas de base más grandes.

27
RESEARCHarXiv CS.CL·30/4/2026

Information Extraction from Electricity Invoices with General-Purpose Large Language Models

Este estudio evalúa la capacidad de LLMs de propósito general para extraer información de facturas de electricidad españolas sin ajuste fino, demostrando que la calidad del prompt es más crítica que la optimización de hiperparámetros. Las estrategias few-shot superan a las zero-shot en más de 19 puntos porcentuales de F1-score.

27
RESEARCHarXiv CS.CL·30/4/2026

CogRAG+: Cognitive-Level Guided Diagnosis and Remediation of Memory and Reasoning Deficiencies in Professional Exam QA

CogRAG+ es un marco sin entrenamiento diseñado para diagnosticar y remediar deficiencias de memoria y razonamiento en LLMs para exámenes profesionales. Desacopla y alinea la recuperación y el razonamiento con jerarquías cognitivas humanas, utilizando estrategias como Reinforced Retrieval y Constrained Reasoning para mejorar la precisión y consistencia.

27
RESEARCHarXiv CS.CL·14/4/2026

Human vs. Machine Deception: Distinguishing AI-Generated and Human-Written Fake News Using Ensemble Learning

Este estudio examina las diferencias lingüísticas, estructurales y emocionales entre las noticias falsas generadas por IA y las escritas por humanos. Evalúa métodos de aprendizaje automático y basados en ensembles para distinguir estos tipos de contenido, utilizando una representación detallada de características.

27
RESEARCHarXiv CS.CL·17/4/2026

How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data

Esta investigación propone TESSY, un marco de Síntesis de Datos por Cooperación Profesor-Estudiante, para abordar las caídas de rendimiento al ajustar modelos de razonamiento con datos generados por un modelo más fuerte. TESSY permite la generación de secuencias sintéticas que heredan capacidades avanzadas de razonamiento del profesor, manteniendo la consistencia estilística con la distribución del modelo estudiante.

27
RESEARCHarXiv CS.CL·1/5/2026

Exploring the Limits of Pruning: Task-Specific Neurons, Model Collapse, and Recovery in Task-Specific Large Language Models

Este estudio explora la existencia de neuronas específicas para tareas en grandes modelos de lenguaje, centrándose en el razonamiento matemático y la generación de código. Introduce una métrica de selectividad basada en activación para la poda de neuronas, que supera consistentemente la poda aleatoria en la reducción del costo computacional y el mantenimiento de la precisión de la tarea, previniendo el colapso del rendimiento.

27
RESEARCHarXiv CS.LG·hace 20d

LEAP: A closed-loop framework for perovskite precursor additive discovery

LEAP es un marco de ciclo cerrado que acopla un modelo de lenguaje grande (LLM) especializado en el dominio con aprendizaje activo para la priorización iterativa de aditivos en células solares de perovskita. Extrae conocimiento de la literatura y representa moléculas para optimización bayesiana, superando a los modelos de propósito general y validado experimentalmente.

27
RESEARCHarXiv CS.CL·hace 20d

Leveraging Large Language Models for Sentiment Analysis: Multi-Modal Analysis of Decentraland's MANA Token

Este estudio investiga la integración del análisis de sentimiento de la comunidad de Discord de Decentraland, utilizando un modelo de lenguaje grande basado en BERT, con datos financieros multimodales para predecir el precio del token MANA. Los resultados muestran que un modelo multimodal, que incorpora el sentimiento, el volumen de negociación y la capitalización de mercado, supera significativamente a una línea base de predicción solo de precios.

27
RESEARCHarXiv CS.CL·17/4/2026

Decoupling Scores and Text: The Politeness Principle in Peer Review

Este estudio investiga la dificultad de interpretar la retroalimentación de la revisión por pares, comparando la eficacia de las puntuaciones numéricas frente a los textos en la predicción de aceptación. La investigación revela que los modelos basados en puntuaciones son significativamente más precisos (91%) que los modelos basados en texto (81% con LLMs), indicando que la información textual es menos fiable.

27
RESEARCHarXiv CS.CL·17/4/2026

Can Large Language Models Detect Methodological Flaws? Evidence from Gesture Recognition for UAV-Based Rescue Operation Based on Deep Learning

Esta investigación examina si los Grandes Modelos de Lenguaje (LLMs) pueden identificar fallas metodológicas, como la fuga de datos, en estudios de aprendizaje automático publicados. Un estudio de caso mostró que seis LLMs de vanguardia detectaron consistentemente fallas de evaluación en un artículo de reconocimiento de gestos debido a la partición de datos no independiente.

27
RESEARCHarXiv CS.LG·24/4/2026

Forget, Then Recall: Learnable Compression and Selective Unfolding via Gist Sparse Attention

Este artículo presenta Gist Sparse Attention (GSA), un método de aprendizaje de extremo a extremo para escalar grandes modelos de lenguaje a contextos largos sin modificaciones arquitectónicas. GSA comprime el contexto en 'tokens de esencia' para resumir y luego restaura selectivamente fragmentos brutos relevantes para una atención detallada, combinando representaciones globales compactas con acceso específico y granular.

27
RESEARCHarXiv CS.AI·20/4/2026

Bilevel Optimization of Agent Skills via Monte Carlo Tree Search

Esta investigación propone un marco de optimización de dos niveles para mejorar sistemáticamente las "habilidades de agente" en agentes de modelos de lenguaje grandes (LLM). Utiliza un bucle externo de Monte Carlo Tree Search para optimizar conjuntamente la estructura y el contenido de estas habilidades, buscando mejorar el rendimiento de la tarea.

27
RESEARCHarXiv CS.CL·20/4/2026

Applied Explainability for Large Language Models: A Comparative Study

Este artículo presenta un estudio comparativo de tres técnicas de explicabilidad (Integrated Gradients, Attention Rollout y SHAP) aplicadas a un modelo DistilBERT para clasificación de sentimientos. Los resultados muestran que la atribución basada en gradientes proporciona explicaciones más estables e intuitivas, mientras que los métodos basados en atención son eficientes pero menos alineados con las características predictivas.

27
RESEARCHarXiv CS.CL·4/5/2026

ViLegalNLI: Natural Language Inference for Vietnamese Legal Texts

Este artículo presenta ViLegalNLI, el primer conjunto de datos a gran escala de Inferencia de Lenguaje Natural (NLI) en vietnamita, construido específicamente para el dominio legal. El conjunto de datos incluye 42.012 pares de premisa-hipótesis derivados de documentos estatutarios oficiales, desarrollado con un marco semi-automático que integra grandes modelos de lenguaje.

27
RESEARCHarXiv CS.CL·21/4/2026

Data Mixing for Large Language Models Pretraining: A Survey and Outlook

Este artículo presenta una encuesta exhaustiva sobre la mezcla de datos para el preentrenamiento de Large Language Models (LLMs), un factor crucial para la eficiencia del entrenamiento y la generalización posterior. Formaliza la optimización de la mezcla de datos como un problema de dos niveles e introduce una taxonomía detallada para los métodos existentes.

27
RESEARCHarXiv CS.LG·24/4/2026

Absorber LLM: Harnessing Causal Synchronization for Test-Time Training

Los Transformers sufren altos costos computacionales y consumo de memoria para secuencias largas, mientras que las alternativas pierden dependencias a largo plazo. Absorber LLM propone una sincronización causal auto-supervisada para absorber contextos históricos en los parámetros, asegurando que un modelo sin contexto coincida con el original de contexto completo en generaciones futuras.

27
RESEARCHarXiv CS.LG·hace 22d

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

Esta investigación aborda el desafío de la mala asignación de crédito en el aprendizaje por refuerzo para el razonamiento multi-paso con grandes modelos de lenguaje, causado por recompensas terminales dispersas que conducen a una alta varianza de gradiente y un entrenamiento inestable. Propone un marco de asignación de crédito basado en comparación contrafactual y la Optimización Implícita de la Política de Comportamiento (IBPO) para crear señales de aprendizaje sensibles al paso, mejorando significativamente la estabilidad y el rendimiento del entrenamiento.

27
RESEARCHarXiv CS.CL·hace 26d

Distribution Corrected Offline Data Distillation for Large Language Models

Esta investigación propone un marco de destilación de razonamiento fuera de línea para Grandes Modelos de Lenguaje (LLMs) con el fin de mejorar la inteligencia en entornos con recursos limitados. El método aborda el problema de la deriva distribucional en los enfoques fuera de línea existentes, corrigiendo las discrepancias entre el profesor y el alumno, mientras mantiene la eficiencia y la calidad de la supervisión.

27