LLM agents

38 items

RESEARCHarXiv CS.AI·13/4/2026

From Business Events to Auditable Decisions: Ontology-Governed Graph Simulation for Enterprise AI

LOM-action introduce una simulación de ontología basada en eventos para la IA empresarial, abordando la falla arquitectónica de los sistemas de agentes LLM que producen decisiones sin fundamento. Utiliza eventos de negocio para desencadenar mutaciones de grafos, evolucionando un grafo de simulación del cual se derivan exclusivamente todas las decisiones auditables.

Auditable Decisions LLM agents Enterprise AI Graph Simulation

RESEARCHarXiv CS.AI·27/4/2026

Sound Agentic Science Requires Adversarial Experiments

Los agentes basados en LLM se están adoptando rápidamente en el análisis de datos científicos, pero corren el riesgo de producir rápidamente análisis plausibles optimizados para resultados positivos publicables. Los autores proponen que las afirmaciones no experimentales producidas con asistencia de agentes sean evaluadas bajo un enfoque de falsificación para asegurar la solidez del conocimiento científico.

falsification LLM agents scientific methodology AI in science

RESEARCHarXiv CS.AI·9/5/2026

From History to State: Constant-Context Skill Learning for LLM Agents

Este artículo propone el aprendizaje de habilidades de contexto constante, un marco novedoso para que los agentes de LLM gestionen flujos de trabajo recurrentes de manera más eficiente. Aborda los desafíos de privacidad, costo y capacidad al aprender procedimientos reutilizables en módulos de familia de tareas y condicionar la inferencia en un bloque de estado compacto. Su eficacia se demuestra en puntos de referencia como ALFWorld, WebShop y SciWorld.

LLM agents reinforcement learning Skill Learning AI research

RESEARCHarXiv CS.AI·27/4/2026

Read the Paper, Write the Code: Agentic Reproduction of Social-Science Results

Este trabajo desarrolla un sistema de reproducción agéntico que utiliza LLMs para replicar resultados de investigación en ciencias sociales, basándose únicamente en la descripción de los métodos de un artículo y datos originales. Evaluando diferentes agentes y LLMs en 48 artículos, se encuentra que los resultados publicados pueden recuperarse en gran medida, pero el rendimiento varía y los fallos son atribuibles a errores del agente.

scientific methods social science research LLM agents Reproducibility

RESEARCHarXiv CS.AI·20/4/2026

The World Leaks the Future: Harness Evolution for Future Prediction Agents

Esta investigación aborda el desafío de la predicción futura utilizando agentes LLM, donde la evidencia evoluciona y la supervisión útil llega solo después de que un evento se resuelve. Introduce la "retroalimentación interna" derivada de revisar las predicciones a lo largo del tiempo y propone "Milkyway", un sistema de agente autoevolutivo que actualiza un estado persistente para mejorar la precisión de la predicción.

LLM agents future prediction self-evolving agents agent systems

RESEARCHarXiv CS.LG·hace 26d

EvolveMem:Self-Evolving Memory Architecture via AutoResearch for LLM Agents

EvolveMem introduce una arquitectura de memoria auto-evolutiva para agentes LLM que permite la co-evolución tanto del conocimiento almacenado como de los mecanismos de recuperación. Optimiza su configuración de forma autónoma utilizando un módulo de diagnóstico impulsado por LLM, lo que lleva a un proceso de AutoInvestigación de ciclo cerrado.

LLM agents AutoResearch self-evolving systems memory architecture

RESEARCHarXiv CS.AI·hace 29d

SkillLens: Adaptive Multi-Granularity Skill Reuse for Cost-Efficient LLM Agents

SkillLens es un marco jerárquico de evolución de habilidades para agentes LLM que organiza y reutiliza habilidades con granularidad mixta. Esto permite a los agentes reutilizar directamente sub-habilidades compatibles y adaptar solo las partes localmente incompatibles, optimizando costos y relevancia.

Skill reuse LLM agents AI frameworks Natural Language Processing

RESEARCHarXiv CS.AI·11/5/2026

From Storage to Experience: A Survey on the Evolution of LLM Agent Memory Mechanisms

Los agentes basados en Grandes Modelos de Lenguaje (LLM) han transformado la inteligencia artificial, pero la investigación sobre mecanismos de memoria sigue fragmentada. Esta encuesta propone un nuevo marco evolutivo para los mecanismos de memoria de los agentes LLM, formalizando el proceso de desarrollo en tres etapas: Almacenamiento, Reflexión y Experiencia.

Evolutionary framework LLM agents research Memory mechanisms

RESEARCHarXiv CS.AI·hace 21d

Trustworthy Agent Network: Trust in Agent Networks Must Be Baked In, Not Bolted On

El surgimiento de redes de Agente-a-Agente (A2A) basadas en LLM autónomos introduce vulnerabilidades sistémicas a pesar del mejor rendimiento de las tareas. Este artículo argumenta que la confiabilidad en las redes A2A debe ser diseñada desde el principio, no adaptada posteriormente, para mitigar riesgos como la composición adversaria y los fallos en cascada.

LLM agents trustworthiness security agent networks

RESEARCHarXiv CS.AI·hace 9d

Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents

El estudio desentraña dos capacidades de agentes LLM autoevolutivos: la actualización del "harness" (producir actualizaciones útiles) y el beneficio del "harness" (aprovechar esas actualizaciones). El análisis muestra que la capacidad de actualización es sorprendentemente similar entre modelos de diversas capacidades base, lo que sugiere que incluso modelos menos potentes pueden generar actualizaciones beneficiosas.

AI capabilities LLM agents Machine Learning self-evolution

ARTICLEDEV.to AI·16/4/2026

Ai Financial Agents Hallucinating With Real Money How To Build Brokerage Grade Guardrails

Los agentes LLM autónomos en finanzas presentan riesgos significativos, ya que las alucinaciones pueden causar pérdidas monetarias reales y escrutinio regulatorio. Las capas de orquestación de IA deben ser tratadas como infraestructura de Nivel 1 con salvaguardias de grado de corretaje, integrándolas en el entorno de control desde el primer día.

LLM agents Financial services risk management AI Safety

RESEARCHarXiv CS.AI·6/4/2026

Aligning Progress and Feasibility: A Neuro-Symbolic Dual Memory Framework for Long-Horizon LLM Agents

O título sugere uma pesquisa sobre um framework neuro-simbólico de memória dupla para agentes LLM, visando alinhar progresso e viabilidade em tarefas de longo horizonte. Ele aborda a melhoria da capacidade de agentes de IA para planejar e executar ações complexas ao longo do tempo.

memory architectures LLMs LLM agents Neuro-Simbólico

RESEARCHarXiv CS.AI·6/4/2026

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems

Este título descreve uma pesquisa focada na verificação e validação de sistemas autônomos confiáveis, utilizando uma abordagem neuro-simbólica integrada a agentes LLM. O objetivo é garantir a robustez e a segurança de sistemas de IA avançados.

LLM agents Autonomous systems Verification and Validation trustworthy AI

RESEARCHarXiv CS.AI·hace 22d

ANNEAL: Adapting LLM Agents via Governed Symbolic Patch Learning

ANNEAL es un agente neuro-simbólico que repara fallos recurrentes de agentes LLM mediante ediciones simbólicas gobernadas de un grafo de conocimiento de procesos. Localiza el operador responsable, sintetiza un parche tipado y lo valida con barandillas simbólicas y pruebas canary antes de confirmar el cambio.

LLM agents knowledge graphs error recovery AI Governance

ARTICLEDEV.to AI·14/4/2026

Qwen Models for Hermes Agent — Open-Source Agent Workflows

La licencia Apache 2.0 de Qwen3 habilita flujos de trabajo flexibles para Hermes Agent, permitiendo el ajuste fino, la implementación privada y el uso comercial sin restricciones. La línea completa de Qwen3, ejecutándose localmente a través de Ollama, facilita diversos casos de uso de agentes en hardware variado y con cero costo de API.

Apache 2.0 LLM agents Hermes Agent Open Source AI

NEWSDEV.to AI·12/4/2026

LLM Agent Workflows: Local AI Support, Prompt Tooling, & Claude Code API Costs

Este contenido aborda avances prácticos en aplicaciones LLM, centrándose en agentes de IA locales para soporte al cliente, herramientas de ingeniería de prompts y costos de la API Claude Code. Articula la visión de agentes de soporte al cliente basados en LLM, completamente offline y privados, para plataformas como WhatsApp y Telegram, con énfasis en la privacidad de los datos.

prompt engineering LLM agents data privacy Local AI

ARTICLEDEV.to AI·2/5/2026

Stuck in the Birch Log Blues 🪵😩

Este contenido describe una experiencia frustrante donde un agente de IA, Kiwi-chan, quedó atrapado en un bucle de fallos al intentar recolectar troncos de abedul, a pesar de los intentos de reparación de código por parte de un LLM, Qwen. El problema subraya la dificultad de la IA para la autocorrección y para reconocer la necesidad de explorar en lugar de centrarse solo en soluciones inmediatas.

LLM agents AI debugging AI failure

RESEARCHarXiv CS.AI·6/4/2026

Let's Have a Conversation: Designing and Evaluating LLM Agents for Interactive Optimization

Este conteúdo aborda a concepção e avaliação de agentes LLM para otimização interativa. Ele explora métodos para criar e medir a eficácia de sistemas de IA conversacionais.

Interactive Optimization LLM agents evaluation AI design