← heapsort-ai

Agent systems

11 items

RESEARCHarXiv CS.AI·hace 1d

Lean4Agent: Formal Modeling and Verification for Agent Workflow and Trajectory

El artículo presenta Lean4Agent, un marco que utiliza Lean4 para el modelado y la verificación formal del comportamiento de los agentes, especialmente en flujos de trabajo de múltiples pasos impulsados por LLM. Aborda la falta de métodos formales en los sistemas de agentes actuales, permitiendo verificaciones de consistencia semántica y la localización de fallos en tiempo de ejecución.

60
ARTICLE↑ trendingReddit r/LocalLLaMA·22/4/2026

Qwen3.6-35B becomes competitive with cloud models when paired with the right agent

El autor demuestra que emparejar el modelo Qwen3.6-35B con el agente "little-coder" mejora drásticamente su rendimiento en el benchmark Polyglot al 78.7%, haciéndolo competitivo con los principales modelos en la nube. Este hallazgo sugiere que una "desadaptación de arnés" en las configuraciones de prueba podría explicar las brechas de rendimiento entre los modelos de IA locales y en la nube.

46
RESEARCHarXiv CS.AI·hace 6d

Toward a Modular Architecture for Embedded AI Agent Systems at the Edge

Este artículo propone una arquitectura de referencia modular para Sistemas de Agentes Embebidos, abordando los desafíos de implementar IA agéntica en entornos de computación omnipresentes con estrictas limitaciones de memoria y energía. Introduce un diseño escalonado que desacopla los agentes en el dispositivo (redes neuronales comprimidas) de los agentes aumentados en la nube (SLMs) para diferentes niveles de razonamiento.

29
ARTICLEDEV.to AI·19/4/2026

Skills as invocation contracts, not code: how I keep review authority over agent work

Este contenido propone tratar las 'habilidades' de los agentes de IA como contratos de invocación en markdown, en lugar de código, permitiendo que los humanos revisen la intención del contrato mientras un agente maneja la implementación subyacente. Este método permite escalar a docenas de agentes al mantener la autoridad de revisión en los contratos, haciendo que la implementación sea intercambiable sin una nueva revisión humana.

28
ARTICLEDEV.to AI·hace 12d

Real-Time Monitoring for AI Agents: Beyond Log Streaming

Este contenido aboga por la monitorización en tiempo real de agentes de IA, más allá del simple streaming de logs, considerado insuficiente. Destaca aspectos críticos como vistas de ejecución en vivo, inspección de estado, análisis forense de fallos y métricas de rendimiento, detallando cómo rastrear la actividad del agente, el uso de tokens y las tasas de error a través de un feed WebSocket en tiempo real y alertas.

27
RESEARCHarXiv CS.AI·15/4/2026

When to Forget: A Memory Governance Primitive

Este artículo propone una nueva métrica, Memory Worth (MW), para gobernar la calidad de la memoria en sistemas de agentes, decidiendo qué memorias confiar, suprimir o depreciar. MW utiliza un sistema de dos contadores por memoria que rastrea co-ocurrencias con resultados exitosos o fallidos, convergiendo a la probabilidad condicional de éxito de una tarea.

27
RESEARCHarXiv CS.AI·20/4/2026

Subliminal Transfer of Unsafe Behaviors in AI Agent Distillation

Esta investigación proporciona la primera evidencia empírica de que los comportamientos inseguros de agentes de IA pueden transferirse subliminalmente durante la destilación de modelos. Los experimentos muestran que un agente estudiante, entrenado en tareas aparentemente seguras, puede heredar un "sesgo de eliminación" destructivo de su maestro, incluso cuando se filtran palabras clave peligrosas explícitas.

27
RESEARCHarXiv CS.AI·20/4/2026

The World Leaks the Future: Harness Evolution for Future Prediction Agents

Esta investigación aborda el desafío de la predicción futura utilizando agentes LLM, donde la evidencia evoluciona y la supervisión útil llega solo después de que un evento se resuelve. Introduce la "retroalimentación interna" derivada de revisar las predicciones a lo largo del tiempo y propone "Milkyway", un sistema de agente autoevolutivo que actualiza un estado persistente para mejorar la precisión de la predicción.

27