← heapsort-ai

LLMs

722 items

RESEARCHarXiv CS.LG·7/5/2026

EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation

Esta investigación introduce EdgeRazor, un marco ligero diseñado para desplegar Grandes Modelos de Lenguaje en dispositivos con recursos limitados. Aprovecha la destilación consciente de la cuantificación de precisión mixta para convertir modelos de precisión completa a formatos de bits más bajos, superando las limitaciones de los métodos de cuantificación previos.

27
RESEARCHarXiv CS.AI·hace 29d

MemQ: Integrating Q-Learning into Self-Evolving Memory Agents over Provenance DAGs

MemQ integra rastros de elegibilidad TD($\lambda$) con valores Q de memoria, propagando el crédito hacia atrás a través de un DAG de procedencia para tener en cuenta las dependencias entre memorias. Este enfoque mejora significativamente la capacidad de los agentes LLM para acumular y recuperar experiencia, logrando altas tasas de éxito en diversos puntos de referencia.

27
RESEARCHarXiv CS.AI·hace 29d

On Distinguishing Capability Elicitation from Capability Creation in Post-Training: A Free-Energy Perspective

Esta investigación propone distinguir entre la elicitación y la creación de capacidades en el post-entrenamiento de grandes modelos de lenguaje. Argumenta que la elicitación repondera comportamientos existentes dentro del soporte accesible de un modelo, mientras que la creación cambia ese soporte, desarrollando esto a través de una perspectiva de energía libre.

27
RESEARCHarXiv CS.AI·11/5/2026

CASCADE: Case-Based Continual Adaptation for Large Language Models During Deployment

Este artículo formaliza el Aprendizaje en Tiempo de Despliegue (DTL) como una nueva etapa para los LLM, permitiéndoles adaptarse continuamente a partir de la experiencia posterior al entrenamiento sin modificar los parámetros del modelo. Presenta CASCADE, un marco que equipa a los agentes LLM con una memoria episódica explícita y evolutiva, formalizando la reutilización de la experiencia como un problema de bandido contextual.

27
RESEARCHarXiv CS.AI·hace 18d

Benchmarking and Improving Monitors for Out-Of-Distribution Alignment Failure in LLMs

Esta investigación introduce MOOD, un benchmark diseñado para estudiar la detección de fallos de alineación fuera de distribución (OOD) en grandes modelos de lenguaje (LLMs) mediante pipelines de monitoreo. Propone combinar modelos de guardia con detectores OOD para mejorar la generalización de los clasificadores de seguridad, que a menudo fallan en escenarios OOD.

27
RESEARCHarXiv CS.AI·11/5/2026

GraphDC: A Divide-and-Conquer Multi-Agent System for Scalable Graph Algorithm Reasoning

Este artículo presenta GraphDC, un sistema multiagente de "Divide y Vencerás" diseñado para mejorar el razonamiento de algoritmos de grafos en Large Language Models (LLMs). Mejora el rendimiento al descomponer grafos grandes en subgrafos más pequeños para agentes especializados, con un agente maestro integrando los resultados, lo que lleva a una mayor escalabilidad y robustez.

27
RESEARCHarXiv CS.AI·hace 21d

AgentNLQ: A General-Purpose Agent for Natural Language to SQL

Este estudio presenta AgentNLQ, un nuevo método multiagente para la conversión de Lenguaje Natural a SQL (NL2SQL), logrando un 78,1% de precisión semántica en el benchmark BIRD. Utiliza LLMs en un orquestador optimizado para planificar, reflexionar y autocorregirse, generando consultas SQL precisas a partir de esquemas enriquecidos y reglas de negocio.

27
RESEARCHarXiv CS.AI·hace 23d

Does Theory of Mind Improvement Really Benefit Human-AI Interactions? Empirical Findings from Interactive Evaluations

Este artículo propone un nuevo paradigma para la evaluación interactiva de las mejoras en la Teoría de la Mente (ToM) de los Grandes Modelos de Lenguaje (LLMs) en interacciones humano-IA. Los hallazgos empíricos, basados en conjuntos de datos del mundo real y un estudio de usuario, revelan que las mejoras en los puntos de referencia estáticos no siempre se traducen en beneficios para las interacciones dinámicas humano-IA.

27
RESEARCHarXiv CS.CL·hace 26d

When Evidence Conflicts: Uncertainty and Order Effects in Retrieval-Augmented Biomedical Question Answering

Esta investigación evalúa modelos de lenguaje grandes (LLMs) en la respuesta a preguntas biomédicas, abordando su fiabilidad cuando se enfrentan a evidencia conflictiva o incompleta. Revela que la precisión de los LLMs disminuye significativamente y las predicciones cambian cuando se invierte el orden de los documentos correctos y contradictorios, destacando problemas con los efectos de orden y la necesidad de abstención consciente del conflicto.

27
RESEARCHarXiv CS.AI·hace 23d

CAX-Agent: A Lightweight Agent Harness for Reliable APDL Automation

Este artículo presenta CAX-Agent, un arnés de agente ligero diseñado para mejorar la fiabilidad de los grandes modelos de lenguaje (LLMs) en simulaciones de elementos finitos MAPDL. Aborda problemas como salidas inconsistentes y fallos de tareas mediante control de ejecución estructurado, encapsulación de herramientas y mecanismos robustos de recuperación de fallos, evaluando diversas estrategias de recuperación.

27
RESEARCHarXiv CS.CL·hace 21d

Position: Uncertainty Quantification in LLMs is Just Unsupervised Clustering

Este artículo sostiene que los métodos actuales de Cuantificación de Incertidumbre (UQ) para LLMs son, en realidad, algoritmos de agrupamiento no supervisado, que miden la consistencia interna de las generaciones del modelo en lugar de su corrección externa. En consecuencia, estos métodos no detectan las "alucinaciones confiadas" y pueden generar una falsa sensación de seguridad al desplegar LLMs en ámbitos de alto riesgo.

27
RESEARCHarXiv CS.CL·hace 27d

Mitigating Cross-Lingual Cultural Inconsistencies in LLMs via Consensus-Driven Preference Optimisation

Los grandes modelos de lenguaje multilingües (MLLM) a menudo muestran un comportamiento inconsistente en cuanto a la identidad cultural entre idiomas. Para mitigar esto, los investigadores proponen una nueva métrica y un marco de alineación basado en el consenso, C-3PO, que mejora notablemente la consistencia cultural interlingüística.

27