← heapsort-ai

large language models

262 items

RESEARCHarXiv CS.CL·20/4/2026

Why Fine-Tuning Encourages Hallucinations and How to Fix It

Los grandes modelos de lenguaje a menudo alucinan hechos, un problema exacerbado por el ajuste fino supervisado (SFT) que degrada el conocimiento preentrenado. Esta investigación propone un método SFT basado en autodestilación, inspirado en el aprendizaje continuo, para mitigar las alucinaciones regulando la deriva de la distribución de salida, mientras adquiere efectivamente nueva información fáctica.

27
RESEARCHarXiv CS.AI·16/4/2026

ReSS: Learning Reasoning Models for Tabular Data Prediction via Symbolic Scaffold

ReSS es un marco que une modelos de razonamiento simbólicos y neuronales para la predicción de datos tabulares, buscando alta precisión y razonamiento comprensible. Utiliza árboles de decisión para extraer andamios simbólicos que guían a un LLM a generar razonamiento en lenguaje natural, que se utiliza para el ajuste fino de LLMs en tareas de razonamiento tabular.

27
RESEARCHarXiv CS.CL·13/4/2026

Medical Reasoning with Large Language Models: A Survey and MR-Bench

Este artículo presenta una revisión exhaustiva del razonamiento médico con Grandes Modelos de Lenguaje (LLMs), conceptualizándolo como un proceso iterativo de abducción, deducción e inducción. Organiza los métodos existentes en siete rutas técnicas y realiza una evaluación unificada de modelos representativos en diferentes benchmarks.

27
RESEARCHarXiv CS.AI·13/4/2026

StaRPO: Stability-Augmented Reinforcement Policy Optimization

StaRPO es un nuevo marco de aprendizaje por refuerzo diseñado para mejorar la consistencia lógica de los grandes modelos de lenguaje en tareas de razonamiento complejas. Incorpora explícitamente métricas de estabilidad, como la Función de Autocorrelación y la Eficiencia de la Ruta, para evaluar la coherencia local y la direccionalidad global del proceso de razonamiento.

27
RESEARCHarXiv CS.CL·7/4/2026

SoLA: Leveraging Soft Activation Sparsity and Low-Rank Decomposition for Large Language Model Compression

SoLA é um novo método de compressão sem treinamento para LLMs, que utiliza esparsidade de ativação suave e decomposição de baixo-rank. Ele identifica componentes cruciais para a inferência e comprime a maioria, visando reduzir parâmetros de modelos de linguagem grandes de forma eficiente e acessível.

27
RESEARCHarXiv CS.AI·1/5/2026

Think it, Run it: Autonomous ML pipeline generation via self-healing multi-agent AI

Este artículo propone una arquitectura unificada de IA multiagente para automatizar la generación de pipelines de aprendizaje automático (ML) de principio a fin a partir de conjuntos de datos y objetivos en lenguaje natural. El sistema de cinco agentes integra RAG, un recomendador híbrido explicable y un mecanismo de auto-curación basado en LLM, logrando una tasa de éxito del 84,7% y una mayor robustez.

27
RESEARCHarXiv CS.AI·hace 6d

Thinking Past the Answer: Evaluating Harmful Overthinking in Large Reasoning Models

Este artículo evalúa el "exceso de pensamiento perjudicial" en Modelos de Razonamiento Grandes, donde el razonamiento continuo después de una respuesta correcta puede desestabilizar la trayectoria. Introduce un protocolo para diferenciar el exceso de pensamiento redundante del perjudicial, identificando problemas en benchmarks multimodales.

27
RESEARCHarXiv CS.CL·hace 21d

Language Acquisition Device in Large Language Models

Este artículo propone un preentrenamiento inspirado en el Dispositivo de Adquisición del Lenguaje (LAD) utilizando MP-STRUCT, un lenguaje formal que refleja estructuras del lenguaje natural, para mejorar la eficiencia de datos de los Grandes Modelos de Lenguaje. Un breve preentrenamiento con MP-STRUCT iguala la eficiencia de tokens de sólidas bases de lenguajes formales y confiere una resistencia similar a la humana a lenguajes estructuralmente implausibles.

27