← heapsort-ai

Agentic Systems

7 items

RESEARCHarXiv CS.LG·14/4/2026

ExecTune: Effective Steering of Black-Box LLMs with Guide Models

Esta investigación introduce las Políticas Guía-Núcleo (GCoP), un marco para dirigir LLMs de caja negra donde un modelo guía genera estrategias para un modelo central. El estudio formaliza GCoP bajo un objetivo de utilidad sensible al costo, destacando que el rendimiento depende de la ejecutabilidad promedio de la guía, la cual los métodos actuales a menudo no logran optimizar.

28
RESEARCHarXiv CS.AI·15/4/2026

The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break

Esta investigación aborda el fallo de los agentes LLM en tareas de largo horizonte, que requieren secuencias de acciones extendidas e interdependientes. Introduce HORIZON, un benchmark de diagnóstico transdominio para construir tareas y analizar fallos, evaluando agentes de última generación y proponiendo un pipeline de "LLM-como-Juez" para una atribución escalable de fallos.

27