LLMs

722 items

RESEARCHarXiv CS.LG·7/5/2026

EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation

Esta investigación introduce EdgeRazor, un marco ligero diseñado para desplegar Grandes Modelos de Lenguaje en dispositivos con recursos limitados. Aprovecha la destilación consciente de la cuantificación de precisión mixta para convertir modelos de precisión completa a formatos de bits más bajos, superando las limitaciones de los métodos de cuantificación previos.

LLMs deep learning quantization model optimization

RESEARCHarXiv CS.AI·hace 29d

MemQ: Integrating Q-Learning into Self-Evolving Memory Agents over Provenance DAGs

MemQ integra rastros de elegibilidad TD($\lambda$) con valores Q de memoria, propagando el crédito hacia atrás a través de un DAG de procedencia para tener en cuenta las dependencias entre memorias. Este enfoque mejora significativamente la capacidad de los agentes LLM para acumular y recuperar experiencia, logrando altas tasas de éxito en diversos puntos de referencia.

memory systems LLMs machine learning Q-learning

RESEARCHarXiv CS.AI·hace 18d

SMDD-Bench: Can LLMs Solve Real-World Small Molecule Drug Design Tasks?

El artículo presenta SMDD-Bench, un nuevo benchmark multi-turno con 502 tareas resolubles para evaluar el rendimiento de agentes LLM en el diseño de fármacos de moléculas pequeñas. Busca estandarizar la evaluación en diversas químicas y objetivos, requiriendo una sólida intuición química, biológica y 3D.

LLMs Scientific Discovery benchmarks drug design

RESEARCHarXiv CS.AI·hace 29d

On Distinguishing Capability Elicitation from Capability Creation in Post-Training: A Free-Energy Perspective

Esta investigación propone distinguir entre la elicitación y la creación de capacidades en el post-entrenamiento de grandes modelos de lenguaje. Argumenta que la elicitación repondera comportamientos existentes dentro del soporte accesible de un modelo, mientras que la creación cambia ese soporte, desarrollando esto a través de una perspectiva de energía libre.

LLMs AI capabilities Machine Learning Theory learning

RESEARCHarXiv CS.LG·hace 8d

A Shared Valence Axis Across Modern LLMs and Human EEG: The Saturation Regularity

Esta investigación explora si los LLM pueden servir como lente para comprender las representaciones neuronales de la valencia emocional en el cerebro humano, centrándose en el EEG. El estudio construye un eje de valencia a partir de LLM y demuestra su mapeo en la actividad neural humana, sugiriendo una representación compartida.

LLMs emotion Neuroscience Cognition

RESEARCHarXiv CS.AI·11/5/2026

CASCADE: Case-Based Continual Adaptation for Large Language Models During Deployment

Este artículo formaliza el Aprendizaje en Tiempo de Despliegue (DTL) como una nueva etapa para los LLM, permitiéndoles adaptarse continuamente a partir de la experiencia posterior al entrenamiento sin modificar los parámetros del modelo. Presenta CASCADE, un marco que equipa a los agentes LLM con una memoria episódica explícita y evolutiva, formalizando la reutilización de la experiencia como un problema de bandido contextual.

LLMs adaptation machine learning AI deployment

RESEARCHarXiv CS.AI·hace 18d

Benchmarking and Improving Monitors for Out-Of-Distribution Alignment Failure in LLMs

Esta investigación introduce MOOD, un benchmark diseñado para estudiar la detección de fallos de alineación fuera de distribución (OOD) en grandes modelos de lenguaje (LLMs) mediante pipelines de monitoreo. Propone combinar modelos de guardia con detectores OOD para mejorar la generalización de los clasificadores de seguridad, que a menudo fallan en escenarios OOD.

Model Monitoring OOD Detection LLMs benchmarking

RESEARCHarXiv CS.AI·11/5/2026

GraphDC: A Divide-and-Conquer Multi-Agent System for Scalable Graph Algorithm Reasoning

Este artículo presenta GraphDC, un sistema multiagente de "Divide y Vencerás" diseñado para mejorar el razonamiento de algoritmos de grafos en Large Language Models (LLMs). Mejora el rendimiento al descomponer grafos grandes en subgrafos más pequeños para agentes especializados, con un agente maestro integrando los resultados, lo que lleva a una mayor escalabilidad y robustez.

LLMs scalable AI AI Reasoning multi-agent systems

RESEARCHarXiv CS.LG·hace 18d

Predicting Performance of Symbolic and Prompt Programs with Examples

Este artículo de investigación propone un modelo de "cara o cruz" para predecir el rendimiento de programas simbólicos y de prompt en LLMs, utilizando pocos ejemplos y un previo de rendimiento. Descubre que los programas simbólicos muestran un rendimiento de "todo o nada", mientras que los programas de prompt tienen un previo difuso.

LLMs prompt-engineering Symbolic AI machine learning

RESEARCHarXiv CS.AI·hace 29d

Belief or Circuitry? Causal Evidence for In-Context Graph Learning

Este artículo investiga cómo los LLMs aprenden en contexto, utilizando una tarea de paseo aleatorio en grafos para explorar si coinciden con patrones o infieren estructura latente. Revela que ninguna explicación por sí sola es suficiente, presentando evidencia de codificación simultánea de topologías de grafos e intervenciones causales.

LLMs learning interpretability graph learning

RESEARCHarXiv CS.AI·hace 21d

AgentNLQ: A General-Purpose Agent for Natural Language to SQL

Este estudio presenta AgentNLQ, un nuevo método multiagente para la conversión de Lenguaje Natural a SQL (NL2SQL), logrando un 78,1% de precisión semántica en el benchmark BIRD. Utiliza LLMs en un orquestador optimizado para planificar, reflexionar y autocorregirse, generando consultas SQL precisas a partir de esquemas enriquecidos y reglas de negocio.

LLMs benchmarking NL2SQL database

RESEARCHarXiv CS.AI·hace 23d

Does Theory of Mind Improvement Really Benefit Human-AI Interactions? Empirical Findings from Interactive Evaluations

Este artículo propone un nuevo paradigma para la evaluación interactiva de las mejoras en la Teoría de la Mente (ToM) de los Grandes Modelos de Lenguaje (LLMs) en interacciones humano-IA. Los hallazgos empíricos, basados en conjuntos de datos del mundo real y un estudio de usuario, revelan que las mejoras en los puntos de referencia estáticos no siempre se traducen en beneficios para las interacciones dinámicas humano-IA.

LLMs evaluation human-AI interaction empirical study

RESEARCHarXiv CS.CL·hace 26d

When Evidence Conflicts: Uncertainty and Order Effects in Retrieval-Augmented Biomedical Question Answering

Esta investigación evalúa modelos de lenguaje grandes (LLMs) en la respuesta a preguntas biomédicas, abordando su fiabilidad cuando se enfrentan a evidencia conflictiva o incompleta. Revela que la precisión de los LLMs disminuye significativamente y las predicciones cambian cuando se invierte el orden de los documentos correctos y contradictorios, destacando problemas con los efectos de orden y la necesidad de abstención consciente del conflicto.

LLMs evaluation Reliability Biomedical AI

RESEARCHarXiv CS.CL·11/5/2026

Domain-level metacognitive monitoring in frontier LLMs: A 33-model atlas

Este estudio presenta un atlas del monitoreo metacognitivo a nivel de dominio en 33 LLM de frontera, analizando 1.500 ítems MMLU en seis dominios. Revela una variación significativa dentro del modelo, siendo el conocimiento Aplicado/Profesional el dominio más fácil y el Razonamiento Formal/Ciencia Natural los más difíciles de monitorear.

LLMs Metacognition cognitive AI benchmarks

RESEARCHarXiv CS.AI·hace 23d

CAX-Agent: A Lightweight Agent Harness for Reliable APDL Automation

Este artículo presenta CAX-Agent, un arnés de agente ligero diseñado para mejorar la fiabilidad de los grandes modelos de lenguaje (LLMs) en simulaciones de elementos finitos MAPDL. Aborda problemas como salidas inconsistentes y fallos de tareas mediante control de ejecución estructurado, encapsulación de herramientas y mecanismos robustos de recuperación de fallos, evaluando diversas estrategias de recuperación.

LLMs simulation automation fault tolerance

RESEARCHarXiv CS.CL·hace 21d

Position: Uncertainty Quantification in LLMs is Just Unsupervised Clustering

Este artículo sostiene que los métodos actuales de Cuantificación de Incertidumbre (UQ) para LLMs son, en realidad, algoritmos de agrupamiento no supervisado, que miden la consistencia interna de las generaciones del modelo en lugar de su corrección externa. En consecuencia, estos métodos no detectan las "alucinaciones confiadas" y pueden generar una falsa sensación de seguridad al desplegar LLMs en ámbitos de alto riesgo.

LLMs uncertainty quantification hallucinations AI safety

RESEARCHarXiv CS.LG·hace 8d

On Effectiveness and Efficiency of Agentic Tool-calling and RL Training

Este artículo estudia la llamada a herramientas en agentes de modelos de lenguaje grandes (LLM), analizando su efectividad y eficiencia. Demuestra que las evaluaciones son sensibles a las decisiones de implementación y señala el desperdicio computacional en el entrenamiento de aprendizaje por refuerzo.

LLMs evaluation reinforcement learning tool-calling

RESEARCHarXiv CS.CL·hace 27d

Mitigating Cross-Lingual Cultural Inconsistencies in LLMs via Consensus-Driven Preference Optimisation

Los grandes modelos de lenguaje multilingües (MLLM) a menudo muestran un comportamiento inconsistente en cuanto a la identidad cultural entre idiomas. Para mitigar esto, los investigadores proponen una nueva métrica y un marco de alineación basado en el consenso, C-3PO, que mejora notablemente la consistencia cultural interlingüística.

Multilingual AI LLMs AI alignment Cultural Bias

RESEARCHarXiv CS.CL·hace 27d

ToolWeave: Structured Synthesis of Complex Multi-Turn Tool-Calling Dialogues

ToolWeave es un marco estructurado para sintetizar diálogos realistas de llamadas a herramientas en múltiples turnos, crucial para que los LLM funcionen como agentes autónomos. Aborda los desafíos de generación de datos sintéticos existentes al soportar flujos de trabajo de varios pasos y reducir la alucinación de parámetros.

data synthesis LLMs tool-calling dialogue systems

CASEDEV.to AI·28/4/2026

I Built a 24/7 AI Agent System on a $6/Month VPS — Here's the Stack

El contenido describe la creación de un sistema de agente de IA autónomo 24/7 en un VPS de $6/mes, utilizando OpenClaw, DeepSeek V4 Pro y Playwright para la automatización. El sistema gestiona publicaciones en redes sociales, artículos en Dev.to y una tienda Gumroad, demostrando automatización de IA eficiente y económica.

LLMs DevOps Cost Optimization automation