LLM agents

38 items

RESEARCHarXiv CS.LG·hace 13h

From Confident Closing to Silent Failure: Characterizing False Success in LLM Agents

Este artículo caracteriza el "falso éxito" en los agentes LLM, donde afirman la finalización de la tarea a pesar de que el estado del entorno indica lo contrario. El estudio, realizado en dos puntos de referencia de agentes, revela que este modo de falla es común y que los jueces LLM fallan de manera confiable al detectarlo, basándose en proxies de finalización superficiales en lugar de cambios de estado verificados.

LLM agents evaluation benchmarking AI failures

RESEARCHarXiv CS.AI·hace 13h

Less Context, Better Agents: Efficient Context Engineering for Long-Horizon Tool-Using LLM Agents

Este artículo de investigación aborda el desafío del desbordamiento de contexto y los altos costos de inferencia en agentes LLM utilizados para flujos de trabajo empresariales. Propone y evalúa métodos como la poda de contexto y la "summarization" automatizada para mejorar la finalización de tareas y reducir el uso de tokens y el tiempo en benchmarks de gastos.

LLM agents AI Efficiency Enterprise AI GPT-5

RESEARCHarXiv CS.CL·hace 13h

Less Context, More Accuracy: A Bi-Temporal Memory Engine for LLM Agents Where a Lean Retrieved Context Beats the Full History

Este artículo presenta Engram, un motor de memoria bi-temporal de código abierto para agentes LLM, diseñado para resolver problemas de costo, latencia y precisión al evitar la repetición del historial completo. Utiliza un contexto recuperado más conciso para mejorar la precisión, gestionando la memoria a largo plazo con un grafo de conocimiento y resolución de contradicciones.

memory systems LLM agents knowledge graphs bi-temporal data

RESEARCHarXiv CS.CL·20/4/2026

PolicyBank: Evolving Policy Understanding for LLM Agents

PolicyBank propone un novedoso mecanismo de memoria para que los agentes LLM refinen iterativamente su comprensión de las políticas organizacionales, abordando ambigüedades y brechas a través de la retroalimentación. A diferencia de los sistemas existentes, permite a los agentes evolucionar su interpretación en lugar de tratar las políticas como una verdad inmutable, introduciendo también un banco de pruebas sistemático para fallas de alineación.

LLM agents Machine Learning human-AI interaction policy compliance

ARTICLEDEV.to AI·19/4/2026

How to Safely Execute LLM Commands in Production Systems

Este artículo analiza los riesgos críticos de que los agentes LLM activen acciones de backend en sistemas de producción, enfatizando que tratar la salida bruta del modelo como instrucciones ejecutables es peligroso. Enmarca el desafío como un problema de interfaz, abogando por límites determinísticos para validar, rechazar y auditar comandos generados por LLM para la seguridad.

LLM agents Production Systems AI safety AI security

ARTICLEDEV.to AI·15/4/2026

OpenAI's Promptfoo deal puts evaluation and red-teaming at the centre of the agent stack

La adquisición de Promptfoo por OpenAI indica un cambio crucial en la evaluación de la calidad de los agentes de IA, juzgada ahora por la capacidad de probar y gobernar fallos antes del despliegue. Esto aborda riesgos operativos críticos como la inyección de prompts y el uso indebido de herramientas, asegurando la robustez de los sistemas en producción.

red-teaming LLM agents evaluation prompt injection

RESEARCHarXiv CS.AI·hace 28d

OLIVIA: Online Learning via Inference-time Action Adaptation for Decision Making in LLM ReAct Agents

OLIVIA es un nuevo framework de adaptación de acciones en tiempo de inferencia diseñado para agentes LLM estilo ReAct, con el objetivo de mejorar la toma de decisiones en tareas secuenciales. Ofrece una capa de decisión explícita para puntuar acciones candidatas y adaptación en línea, abordando las limitaciones de la manipulación indirecta del contexto en los métodos actuales.

AI models Decision-making LLM agents ReAct

ARTICLEDEV.to AI·hace 19d

AI-Enabled Cyber Attacks Hit 600+ Firewalls: The 9 Autonomous Breaches That Redefined Security in 2026

En el primer trimestre de 2026, agentes autónomos impulsados por LLM ejecutaron nueve ciberataques coordinados, violando más de 600 firewalls empresariales a velocidad de máquina. Estos sistemas avanzados descubrieron vulnerabilidades de día cero y explotaron backplanes de MLOps, convirtiendo la IA cotidiana en una amenaza de seguridad significativa.

firewall breaches LLM agents cybersecurity security

ARTICLEDEV.to AI·10/5/2026

Biological AI: Building a Tool-Calling Cellular Simulation

El contenido explora la construcción de una simulación celular en tiempo real inspirada en la inteligencia descentralizada de la biología, utilizando patrones modernos de agentes LLM. Detalla la arquitectura del sistema, incluyendo un orquestador de IA, un motor de simulación y un bus de eventos.

AI orchestration LLM agents biological-ai learning

RESEARCHarXiv CS.AI·4/5/2026

Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents

Esta investigación desafía la suposición de que el razonamiento con herramientas siempre mejora el rendimiento de los LLMs, demostrando que puede ser superado por CoT nativo debido a un "impuesto por uso de herramientas", especialmente con distractores semánticos. Se propone un marco de intervención factorizado para analizar esto y se introduce G-STEP como mitigación parcial para errores inducidos por el protocolo.

LLM agents Reasoning AI performance tool use

RESEARCHarXiv CS.AI·23/4/2026

From Actions to Understanding: Conformal Interpretability of Temporal Concepts in LLM Agents

Este artículo introduce un marco de interpretabilidad conformal para agentes LLM, con el fin de comprender la evolución temporal de conceptos. Combina el modelado de recompensas paso a paso y la predicción conformal para etiquetar representaciones internas e identificar direcciones latentes de éxito, fracaso o deriva del razonamiento.

LLM agents AI interpretability conformal prediction

RESEARCHarXiv CS.AI·hace 28d

PIVOT: Bridging Planning and Execution in LLM Agents via Trajectory Refinement

PIVOT (Plan-Inspect-eVOlve Trajectories) aborda la desalineación entre planificación y ejecución en agentes LLM mediante un marco auto-supervisado. Refina iterativamente las trayectorias a través de la interacción con el entorno, mostrando un rendimiento de vanguardia en evaluaciones empíricas.

LLM agents self-supervised learning Trajectory optimization Machine Learning

ARTICLEDEV.to AI·25/4/2026

Why LLM Agents Fail: Four Mechanisms of Cognitive Decay and the Reasoning Harness Layer

Los agentes LLM fallan de cuatro maneras predecibles, como el decaimiento de la atención y el razonamiento, el colapso sicofántico y la deriva de alucinación, que los enfoques actuales no pueden resolver. La solución propuesta es una capa externa llamada "arnés de razonamiento" para corregir estas fallas inherentes a cómo computan los transformadores.

AI Architecture LLM agents AI failure modes

ARTICLEDEV.to AI·hace 7d

Bot-to-Bot Routing in 2026: Stop Parsing @-mentions From Message Text

Este artículo aborda el desafío del enrutamiento de mensajes entre bots en plataformas multi-agente, criticando la práctica de analizar menciones (@-mentions) del texto para este propósito. Se propone una alternativa de "sobre estructurado", basada en la experiencia con agentes LLM.

LLM agents Software Architecture bot communication multi-agent systems

ARTICLEDEV.to AI·hace 26d

Why Your LLM Agent Needs Contracts, Not Just Logs

El artículo aborda la ineficacia de las aserciones al depurar fallos en agentes LLM y propone el uso de "contratos" para prevenir errores de forma proactiva. Este enfoque busca definir condiciones explícitas, haciendo que el desarrollo de agentes de IA sea más robusto y detectando problemas antes de la ejecución.

LLM agents agent robustness software contracts Debugging

ARTICLEDEV.to AI·hace 29d

CrewAI vs LangGraph in 2026: Choosing the Right LLM Agent Framework

El artículo compara CrewAI y LangGraph, dos marcos populares para agentes LLM, destacando sus enfoques distintos. CrewAI se centra en agentes colaborativos basados en roles, mientras que LangGraph enfatiza las transiciones de estado explícitas y la orquestación a nivel de producción.

AI orchestration CrewAI LangGraph LLM agents

ARTICLEAnalytics Vidhya·hace 7d

Agent Observability with LangSmith, Langfuse, and Arize: A Hands-On Comparison

Este artículo discute el problema crítico de la observabilidad de agentes en IA y LLMs, donde pueden surgir problemas como bucles infinitos o recuperación deficiente después del despliegue. Introduce y compara herramientas como LangSmith, Langfuse y Arize, diseñadas para abordar estos desafíos.

LLM agents AI Observability Arize Langfuse

RESEARCHDEV.to AI·11/5/2026

AI/ML Research Digest — May 09, 2026

Este resumen de investigación en IA/ML cubre avances en modelos de difusión latente para generación multimodal, centrándose en la eficiencia y la extensión de las capacidades de imágenes a vídeo. También destaca innovaciones en el enrutamiento modular de expertos para redes neuronales y métodos de computación adaptativa para optimizar procesos de toma de decisiones secuenciales.

Diffusion Models multimodal AI LLM agents Machine Learning

ARTICLEDEV.to AI·11/5/2026

Heym just crossed 200 GitHub stars: self-hosted AI workflow automation with agents, RAG, MCP, and observability

La plataforma de automatización de flujo de trabajo de IA autoalojada Heym ha superado las 200 estrellas en GitHub. Ofrece un lienzo visual para construir flujos de trabajo de IA de producción con nodos LLM, agentes, RAG y observabilidad.

self-hosted AI LLM agents workflow automation AI automation

RESEARCHarXiv CS.AI·15/4/2026

The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break

Esta investigación aborda el fallo de los agentes LLM en tareas de largo horizonte, que requieren secuencias de acciones extendidas e interdependientes. Introduce HORIZON, un benchmark de diagnóstico transdominio para construir tareas y analizar fallos, evaluando agentes de última generación y proponiendo un pipeline de "LLM-como-Juez" para una atribución escalable de fallos.

Agentic Systems Long-horizon tasks LLM agents failure diagnosis