← heapsort-ai

research

78 items

RESEARCHarXiv CS.LG·1/5/2026

When Continual Learning Moves to Memory: A Study of Experience Reuse in LLM Agents

Este estudio examina la memoria externa en agentes LLM para el aprendizaje continuo, demostrando que el desafío estabilidad-plasticidad se traslada al nivel de la memoria bajo ventanas de contexto limitadas. Se introduce un marco (k,v) para analizar la representación y organización de la experiencia, hallando que las memorias procedimentales abstractas se transfieren más confiablemente y que una organización de memoria más fina es beneficiosa.

27
RESEARCHarXiv CS.LG·8/5/2026

SAT: Sequential Agent Tuning for Coordinator Free Plug and Play Multi-LLM Training with Monotonic Improvement Guarantees

Sequential Agent Tuning (SAT) presenta un paradigma de entrenamiento sin coordinador para equipos de LLMs más pequeños y eficientes, permitiendo actualizaciones descentralizadas y escalables. Este marco teórico garantiza una mejora monótona al aislar la deriva de ocupación con regiones de confianza KL por agente.

27
RESEARCHarXiv CS.CL·hace 22d

Exploring Lightweight Large Language Models for Court View Generation

La investigación explora las capacidades de los Modelos de Lenguaje Grandes y Ligeros (LLM) en la Generación de Vistas Judiciales Criminales (CVG) y su impacto en la predicción de cargos en la IA Legal. El estudio investiga sistemáticamente arquitecturas, tamaño de LLM y compara con Redes Neuronales Profundas, además de introducir el framework CVGEvalKit para evaluación.

27
RESEARCHarXiv CS.AI·hace 18d

AOP-Wiki EMOD 3.0: Data Model Expansions and Content Evaluation Framework for Using Agentic AI to Improve Integration between AOPs and New Approach Methodologies (NAMs)

Este artículo presenta AOP-Wiki EMOD 3.0, centrándose en expansiones del modelo de datos y un marco de evaluación de contenido. Aprovecha la IA agéntica para mejorar la integración entre las Vías de Resultado Adverso (AOPs) y las Nuevas Metodologías de Enfoque (NAMs), abordando las limitaciones actuales en la infraestructura del AOP-Wiki para apoyar su crecimiento continuo.

27
RESEARCHarXiv CS.AI·11/5/2026

From Storage to Experience: A Survey on the Evolution of LLM Agent Memory Mechanisms

Los agentes basados en Grandes Modelos de Lenguaje (LLM) han transformado la inteligencia artificial, pero la investigación sobre mecanismos de memoria sigue fragmentada. Esta encuesta propone un nuevo marco evolutivo para los mecanismos de memoria de los agentes LLM, formalizando el proceso de desarrollo en tres etapas: Almacenamiento, Reflexión y Experiencia.

27
RESEARCHarXiv CS.AI·hace 23d

NOVA: Fundamental Limits of Knowledge Discovery Through AI

El marco NOVA modela el descubrimiento de conocimiento por IA como un proceso de muestreo adaptativo, identificando condiciones para la acumulación de conocimiento genuino y modos de falla comunes como la contaminación y el olvido. Destaca una "trampa de contaminación" donde los artefactos inválidos pueden acumularse más rápido que los descubrimientos genuinos, incluso con pequeñas tasas de falsos positivos, a medida que el conocimiento fácil de encontrar se agota.

27
RESEARCHarXiv CS.LG·hace 28d

Rotation-Preserving Supervised Fine-Tuning

Este artículo propone el "Rotation-Preserving Supervised Fine-Tuning" (RPSFT) para mejorar la generalización fuera del dominio en modelos de lenguaje grandes. Penaliza los cambios en los subespacios singulares preentrenados, ofreciendo un proxy eficiente para las direcciones sensibles de Fisher y superando las líneas base de SFT estándar.

27
RESEARCHarXiv CS.AI·hace 21d

Position: Let's Develop Data Probes to Fundamentally Understand How Data Affects LLM Performance

Este documento de posición aboga por el desarrollo de metodologías sistemáticas para generar secuencias sintéticas, denominadas 'sondas de datos', con el fin de comprender fundamentalmente cómo las características de los datos afectan el rendimiento de los LLM en diversas etapas. El objetivo es superar los enfoques empíricos actuales, que requieren mucho cálculo, proporcionando una forma basada en principios para comprender el comportamiento del modelo.

27
RESEARCHarXiv CS.LG·hace 15d

LLM-AutoSciLab: Closed-Loop Scientific Discovery via Active Experimentation with LLMs

LLM-AutoSciLab propone un marco de ciclo cerrado para el descubrimiento científico, superando la inferencia estática al acoplar activamente la generación de hipótesis con la selección de experimentos y el refinamiento de mecanismos. Sugiere iterativamente hipótesis, elige experimentos informativos para distinguirlas o refinarlas y actualiza su estado basándose en la evidencia resultante.

27
RESEARCHarXiv CS.LG·hace 16d

Latent Cache Flow: Model-to-Model Communication Without Text

Se introduce Latent Cache Flow (LCF) como un nuevo método para la comunicación eficiente de modelo a modelo, abordando la latencia y la pérdida de información en la comunicación de agentes LLM basada en texto. LCF traduce y comprime conjuntamente claves y valores, reduciendo significativamente el tamaño del adaptador y transmitiendo un resumen de nueva información para contextos diferentes.

27
RESEARCHarXiv CS.AI·hace 14d

Experiments in Agentic AI for Science

Este artículo presenta dos nuevos marcos para desarrollar IA autónoma y agéntica en flujos de trabajo científicos, utilizando una arquitectura híbrida Local Body, Remote Brain con backends de LLM en la nube. Los sistemas, DeepTS/DeepCollector y DeepScribe, automatizan la curación de conjuntos de datos de series temporales y el análisis de presentaciones científicas, demostrando cómo la IA agéntica puede superar las limitaciones de contexto y razonamiento.

27
ARTICLEDEV.to AI·hace 14d

AI for science is becoming a builder workflow, not a lab demo

El próximo cambio útil en la IA se centra en ayudar a las personas a realizar mejores investigaciones, evolucionando de responder preguntas a apoyar flujos de trabajo de investigación. Esto se ejemplifica con Gemini for Science de Google, que destaca las herramientas de IA construidas en torno a procesos de investigación prácticos. Este modelo es valioso no solo para científicos, sino para cualquiera que necesite convertir información desordenada en resultados defendibles, fomentando preguntas más agudas y la prueba de suposiciones.

27
RESEARCHDEV.to AI·hace 15d

Alibaba + Nanjing Univ Claim 9.36X Faster Million-Token Prefill vs FlashAttention-2

Investigadores de Alibaba y la Universidad de Nanjing afirman una aceleración de 9.36X en el prellenado de millones de tokens para la inferencia de LLM de contexto largo, superando a FlashAttention-2. Este avance aborda el cuello de botella de latencia dominante en el procesamiento de prompts extensos, donde el cálculo de atención escala cuadráticamente.

27
RESEARCHarXiv CS.CL·6/5/2026

Geometric Deviation as an Unsupervised Pre-Generation Reliability Signal: Probing LLM Representations for Answerability

Esta investigación explora el uso de la desviación geométrica de los estados ocultos de los LLM como una señal previa a la generación para indicar cuando una consulta está fuera del conocimiento del modelo. Se encontró que esta señal funciona bien para preguntas matemáticas sin respuesta, pero no para preguntas fácticas.

27