← heapsort-ai

LLM agents

38 items

RESEARCHarXiv CS.AI·13/4/2026

From Business Events to Auditable Decisions: Ontology-Governed Graph Simulation for Enterprise AI

LOM-action introduce una simulación de ontología basada en eventos para la IA empresarial, abordando la falla arquitectónica de los sistemas de agentes LLM que producen decisiones sin fundamento. Utiliza eventos de negocio para desencadenar mutaciones de grafos, evolucionando un grafo de simulación del cual se derivan exclusivamente todas las decisiones auditables.

27
RESEARCHarXiv CS.AI·27/4/2026

Sound Agentic Science Requires Adversarial Experiments

Los agentes basados en LLM se están adoptando rápidamente en el análisis de datos científicos, pero corren el riesgo de producir rápidamente análisis plausibles optimizados para resultados positivos publicables. Los autores proponen que las afirmaciones no experimentales producidas con asistencia de agentes sean evaluadas bajo un enfoque de falsificación para asegurar la solidez del conocimiento científico.

27
RESEARCHarXiv CS.AI·9/5/2026

From History to State: Constant-Context Skill Learning for LLM Agents

Este artículo propone el aprendizaje de habilidades de contexto constante, un marco novedoso para que los agentes de LLM gestionen flujos de trabajo recurrentes de manera más eficiente. Aborda los desafíos de privacidad, costo y capacidad al aprender procedimientos reutilizables en módulos de familia de tareas y condicionar la inferencia en un bloque de estado compacto. Su eficacia se demuestra en puntos de referencia como ALFWorld, WebShop y SciWorld.

27
RESEARCHarXiv CS.AI·27/4/2026

Read the Paper, Write the Code: Agentic Reproduction of Social-Science Results

Este trabajo desarrolla un sistema de reproducción agéntico que utiliza LLMs para replicar resultados de investigación en ciencias sociales, basándose únicamente en la descripción de los métodos de un artículo y datos originales. Evaluando diferentes agentes y LLMs en 48 artículos, se encuentra que los resultados publicados pueden recuperarse en gran medida, pero el rendimiento varía y los fallos son atribuibles a errores del agente.

27
RESEARCHarXiv CS.AI·20/4/2026

The World Leaks the Future: Harness Evolution for Future Prediction Agents

Esta investigación aborda el desafío de la predicción futura utilizando agentes LLM, donde la evidencia evoluciona y la supervisión útil llega solo después de que un evento se resuelve. Introduce la "retroalimentación interna" derivada de revisar las predicciones a lo largo del tiempo y propone "Milkyway", un sistema de agente autoevolutivo que actualiza un estado persistente para mejorar la precisión de la predicción.

27
RESEARCHarXiv CS.LG·hace 26d

EvolveMem:Self-Evolving Memory Architecture via AutoResearch for LLM Agents

EvolveMem introduce una arquitectura de memoria auto-evolutiva para agentes LLM que permite la co-evolución tanto del conocimiento almacenado como de los mecanismos de recuperación. Optimiza su configuración de forma autónoma utilizando un módulo de diagnóstico impulsado por LLM, lo que lleva a un proceso de AutoInvestigación de ciclo cerrado.

27
RESEARCHarXiv CS.AI·11/5/2026

From Storage to Experience: A Survey on the Evolution of LLM Agent Memory Mechanisms

Los agentes basados en Grandes Modelos de Lenguaje (LLM) han transformado la inteligencia artificial, pero la investigación sobre mecanismos de memoria sigue fragmentada. Esta encuesta propone un nuevo marco evolutivo para los mecanismos de memoria de los agentes LLM, formalizando el proceso de desarrollo en tres etapas: Almacenamiento, Reflexión y Experiencia.

27
RESEARCHarXiv CS.AI·hace 21d

Trustworthy Agent Network: Trust in Agent Networks Must Be Baked In, Not Bolted On

El surgimiento de redes de Agente-a-Agente (A2A) basadas en LLM autónomos introduce vulnerabilidades sistémicas a pesar del mejor rendimiento de las tareas. Este artículo argumenta que la confiabilidad en las redes A2A debe ser diseñada desde el principio, no adaptada posteriormente, para mitigar riesgos como la composición adversaria y los fallos en cascada.

27
RESEARCHarXiv CS.AI·hace 9d

Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents

El estudio desentraña dos capacidades de agentes LLM autoevolutivos: la actualización del "harness" (producir actualizaciones útiles) y el beneficio del "harness" (aprovechar esas actualizaciones). El análisis muestra que la capacidad de actualización es sorprendentemente similar entre modelos de diversas capacidades base, lo que sugiere que incluso modelos menos potentes pueden generar actualizaciones beneficiosas.

27
ARTICLEDEV.to AI·16/4/2026

Ai Financial Agents Hallucinating With Real Money How To Build Brokerage Grade Guardrails

Los agentes LLM autónomos en finanzas presentan riesgos significativos, ya que las alucinaciones pueden causar pérdidas monetarias reales y escrutinio regulatorio. Las capas de orquestación de IA deben ser tratadas como infraestructura de Nivel 1 con salvaguardias de grado de corretaje, integrándolas en el entorno de control desde el primer día.

27
NEWSDEV.to AI·12/4/2026

LLM Agent Workflows: Local AI Support, Prompt Tooling, & Claude Code API Costs

Este contenido aborda avances prácticos en aplicaciones LLM, centrándose en agentes de IA locales para soporte al cliente, herramientas de ingeniería de prompts y costos de la API Claude Code. Articula la visión de agentes de soporte al cliente basados en LLM, completamente offline y privados, para plataformas como WhatsApp y Telegram, con énfasis en la privacidad de los datos.

24
ARTICLEDEV.to AI·2/5/2026

Stuck in the Birch Log Blues 🪵😩

Este contenido describe una experiencia frustrante donde un agente de IA, Kiwi-chan, quedó atrapado en un bucle de fallos al intentar recolectar troncos de abedul, a pesar de los intentos de reparación de código por parte de un LLM, Qwen. El problema subraya la dificultad de la IA para la autocorrección y para reconocer la necesidad de explorar en lugar de centrarse solo en soluciones inmediatas.

24