research

78 items

RESEARCHarXiv CS.LG·1/5/2026

When Continual Learning Moves to Memory: A Study of Experience Reuse in LLM Agents

Este estudio examina la memoria externa en agentes LLM para el aprendizaje continuo, demostrando que el desafío estabilidad-plasticidad se traslada al nivel de la memoria bajo ventanas de contexto limitadas. Se introduce un marco (k,v) para analizar la representación y organización de la experiencia, hallando que las memorias procedimentales abstractas se transfieren más confiablemente y que una organización de memoria más fina es beneficiosa.

research memory AI agents Continual Learning

RESEARCHarXiv CS.CL·8/5/2026

The Cost of Context: Mitigating Textual Bias in Multimodal Retrieval-Augmented Generation

Este artículo identifica y formaliza el

AI models research RAG MLLMs

RESEARCHarXiv CS.LG·8/5/2026

SAT: Sequential Agent Tuning for Coordinator Free Plug and Play Multi-LLM Training with Monotonic Improvement Guarantees

Sequential Agent Tuning (SAT) presenta un paradigma de entrenamiento sin coordinador para equipos de LLMs más pequeños y eficientes, permitiendo actualizaciones descentralizadas y escalables. Este marco teórico garantiza una mejora monótona al aislar la deriva de ocupación con regiones de confianza KL por agente.

LLMs research AI Training Distributed AI

RESEARCHarXiv CS.CL·hace 22d

Exploring Lightweight Large Language Models for Court View Generation

La investigación explora las capacidades de los Modelos de Lenguaje Grandes y Ligeros (LLM) en la Generación de Vistas Judiciales Criminales (CVG) y su impacto en la predicción de cargos en la IA Legal. El estudio investiga sistemáticamente arquitecturas, tamaño de LLM y compara con Redes Neuronales Profundas, además de introducir el framework CVGEvalKit para evaluación.

Legal AI research Court View Generation Natural Language Processing

RESEARCHarXiv CS.AI·hace 18d

AOP-Wiki EMOD 3.0: Data Model Expansions and Content Evaluation Framework for Using Agentic AI to Improve Integration between AOPs and New Approach Methodologies (NAMs)

Este artículo presenta AOP-Wiki EMOD 3.0, centrándose en expansiones del modelo de datos y un marco de evaluación de contenido. Aprovecha la IA agéntica para mejorar la integración entre las Vías de Resultado Adverso (AOPs) y las Nuevas Metodologías de Enfoque (NAMs), abordando las limitaciones actuales en la infraestructura del AOP-Wiki para apoyar su crecimiento continuo.

Data Models research Toxicology New Approach Methodologies

RESEARCHarXiv CS.AI·11/5/2026

From Storage to Experience: A Survey on the Evolution of LLM Agent Memory Mechanisms

Los agentes basados en Grandes Modelos de Lenguaje (LLM) han transformado la inteligencia artificial, pero la investigación sobre mecanismos de memoria sigue fragmentada. Esta encuesta propone un nuevo marco evolutivo para los mecanismos de memoria de los agentes LLM, formalizando el proceso de desarrollo en tres etapas: Almacenamiento, Reflexión y Experiencia.

Evolutionary framework LLM agents research Memory mechanisms

RESEARCHarXiv CS.AI·hace 23d

NOVA: Fundamental Limits of Knowledge Discovery Through AI

El marco NOVA modela el descubrimiento de conocimiento por IA como un proceso de muestreo adaptativo, identificando condiciones para la acumulación de conocimiento genuino y modos de falla comunes como la contaminación y el olvido. Destaca una "trampa de contaminación" donde los artefactos inválidos pueden acumularse más rápido que los descubrimientos genuinos, incluso con pequeñas tasas de falsos positivos, a medida que el conocimiento fácil de encontrar se agota.

research machine learning AI Knowledge Discovery

RESEARCHarXiv CS.LG·hace 28d

Rotation-Preserving Supervised Fine-Tuning

Este artículo propone el "Rotation-Preserving Supervised Fine-Tuning" (RPSFT) para mejorar la generalización fuera del dominio en modelos de lenguaje grandes. Penaliza los cambios en los subespacios singulares preentrenados, ofreciendo un proxy eficiente para las direcciones sensibles de Fisher y superando las líneas base de SFT estándar.

neural networks research machine learning fine-tuning

RESEARCHarXiv CS.AI·hace 21d

Position: Let's Develop Data Probes to Fundamentally Understand How Data Affects LLM Performance

Este documento de posición aboga por el desarrollo de metodologías sistemáticas para generar secuencias sintéticas, denominadas 'sondas de datos', con el fin de comprender fundamentalmente cómo las características de los datos afectan el rendimiento de los LLM en diversas etapas. El objetivo es superar los enfoques empíricos actuales, que requieren mucho cálculo, proporcionando una forma basada en principios para comprender el comportamiento del modelo.

research machine learning data LLM

RESEARCHarXiv CS.AI·hace 7d

Don't Gamble, GAMBLe: An Analytical Framework for AI-Driven Research Systems

Este artículo presenta GAMBLe, un marco analítico para Sistemas de Investigación Impulsados por IA (ADRS). Descompone el comportamiento de los ADRS en cuatro parámetros y un paisaje efectivo, revelando cómo distintos pares generador-evaluador influyen en los paisajes de optimización.

LLMs research frameworks AI

RESEARCHarXiv CS.LG·hace 15d

LLM-AutoSciLab: Closed-Loop Scientific Discovery via Active Experimentation with LLMs

LLM-AutoSciLab propone un marco de ciclo cerrado para el descubrimiento científico, superando la inferencia estática al acoplar activamente la generación de hipótesis con la selección de experimentos y el refinamiento de mecanismos. Sugiere iterativamente hipótesis, elige experimentos informativos para distinguirlas o refinarlas y actualiza su estado basándose en la evidencia resultante.

LLMs research active experimentation Scientific Discovery

RESEARCHarXiv CS.LG·hace 16d

Latent Cache Flow: Model-to-Model Communication Without Text

Se introduce Latent Cache Flow (LCF) como un nuevo método para la comunicación eficiente de modelo a modelo, abordando la latencia y la pérdida de información en la comunicación de agentes LLM basada en texto. LCF traduce y comprime conjuntamente claves y valores, reduciendo significativamente el tamaño del adaptador y transmitiendo un resumen de nueva información para contextos diferentes.

research machine learning AI Communication

RESEARCHarXiv CS.AI·hace 14d

Experiments in Agentic AI for Science

Este artículo presenta dos nuevos marcos para desarrollar IA autónoma y agéntica en flujos de trabajo científicos, utilizando una arquitectura híbrida Local Body, Remote Brain con backends de LLM en la nube. Los sistemas, DeepTS/DeepCollector y DeepScribe, automatizan la curación de conjuntos de datos de series temporales y el análisis de presentaciones científicas, demostrando cómo la IA agéntica puede superar las limitaciones de contexto y razonamiento.

Scientific AI research LLM applications autonomous agents

DOCDEV.to AI·hace 28d

Automate Your Literature Review: A Practical AI Pipeline for Researchers

Este contenido presenta una tubería de IA práctica para que los investigadores automaticen revisiones sistemáticas de la literatura, destacando la creación de un "gold set" para un entrenamiento y prueba robustos de la IA. También sugiere el uso de herramientas como PythonTutor para depurar funciones de extracción de datos.

research learning literature review AI tools

ARTICLEDEV.to AI·hace 14d

AI for science is becoming a builder workflow, not a lab demo

El próximo cambio útil en la IA se centra en ayudar a las personas a realizar mejores investigaciones, evolucionando de responder preguntas a apoyar flujos de trabajo de investigación. Esto se ejemplifica con Gemini for Science de Google, que destaca las herramientas de IA construidas en torno a procesos de investigación prácticos. Este modelo es valioso no solo para científicos, sino para cualquiera que necesite convertir información desordenada en resultados defendibles, fomentando preguntas más agudas y la prueba de suposiciones.

Workflows research Gemini for Science science

RESEARCHDEV.to AI·hace 15d

Alibaba + Nanjing Univ Claim 9.36X Faster Million-Token Prefill vs FlashAttention-2

Investigadores de Alibaba y la Universidad de Nanjing afirman una aceleración de 9.36X en el prellenado de millones de tokens para la inferencia de LLM de contexto largo, superando a FlashAttention-2. Este avance aborda el cuello de botella de latencia dominante en el procesamiento de prompts extensos, donde el cálculo de atención escala cuadráticamente.

FlashAttention research AI performance

DOCDEV.to AI·25/4/2026

Automating Literature Reviews: An AI-Powered Guide for Niche Researchers

Este contenido se centra en la automatización de revisiones de literatura para investigadores, abordando el cuello de botella de la selección manual de PDF. Propone un ciclo de refinamiento iterativo e introduce la biblioteca de código abierto GROBID para extraer datos estructurados de documentos académicos.

GROBID research literature review AI application

ARTICLEOpenAI Blog·hace 29d

What Parameter Golf taught us about AI-assisted research

Parameter Golf reunió a más de 1.000 participantes y 2.000 propuestas para explorar la investigación de aprendizaje automático asistida por IA. El evento se centró en agentes de codificación, cuantificación y diseño de modelos novedosos bajo estrictas restricciones.

research machine learning quantization AI

RESEARCHarXiv CS.CL·6/4/2026

Speaking of Language: Reflections on Metalanguage Research in NLP

Este trabalho define metalinguagem e explora sua conexão com PNL e LLMs, discutindo esforços de pesquisa e dimensões de tarefas metalinguísticas. Propõe ainda uma lista de futuras direções de pesquisa pouco estudadas.

LLMs research Metalanguage NLP

RESEARCHarXiv CS.CL·6/5/2026

Geometric Deviation as an Unsupervised Pre-Generation Reliability Signal: Probing LLM Representations for Answerability

Esta investigación explora el uso de la desviación geométrica de los estados ocultos de los LLM como una señal previa a la generación para indicar cuando una consulta está fuera del conocimiento del modelo. Se encontró que esta señal funciona bien para preguntas matemáticas sin respuesta, pero no para preguntas fácticas.

LLMs research Model Evaluation Reliability