← heapsort-ai

Decision Making

49 items

RESEARCHarXiv CS.AI·hace 19d

$ECUAS_n$: A family of metrics for principled evaluation of uncertainty-augmented systems

Esta investigación propone una nueva familia de métricas, $ECUAS_n$, para evaluar sistemas aumentados por incertidumbre (UA) en la toma de decisiones automatizada. Argumenta que los enfoques de evaluación existentes son insuficientes para valorar el rendimiento general de los sistemas UA, donde la incertidumbre predictiva es crucial para que los usuarios tomen decisiones informadas.

30
RESEARCHarXiv CS.AI·hace 27d

OLIVIA: Online Learning via Inference-time Action Adaptation for Decision Making in LLM ReAct Agents

OLIVIA es un nuevo framework de adaptación de acciones en tiempo de inferencia diseñado para agentes LLM estilo ReAct, con el objetivo de mejorar la toma de decisiones en tareas secuenciales. Ofrece una capa de decisión explícita para puntuar acciones candidatas y adaptación en línea, abordando las limitaciones de la manipulación indirecta del contexto en los métodos actuales.

29
RESEARCHarXiv CS.CL·14/4/2026

Simulating Organized Group Behavior: New Framework, Benchmark, and Analysis

Este artículo propone un nuevo marco y benchmark para simular el comportamiento de grupos organizados, como la toma de decisiones corporativas. Formaliza la tarea de "Simulación del Comportamiento de Grupos Organizados" e introduce GROVE, un benchmark con 8.052 pares de contexto-decisión del mundo real para predecir acciones colectivas.

28
RESEARCHarXiv CS.AI·hace 14d

Operationalizing Reconstructive Authority: Runtime Construction, Dependency Resolution, and Execution Gating in Autonomous Agent Systems

Este artículo presenta un modelo de ejecución en tiempo real para sistemas de agentes autónomos, centrado en garantizar que las acciones solo se ejecuten si su autoridad sigue siendo válida. Define un protocolo de ejecución que incluye resolución dinámica de dependencias, reconstrucción de autoridad y un ciclo de recuperación para la detección de desviaciones.

28
RESEARCHarXiv CS.LG·hace 21d

A Structural Threshold in Decision Capacity Governs Collapse in Self-Play Reinforcement Learning

Este artículo demuestra que un umbral en la capacidad de decisión rige el colapso en agentes de aprendizaje por refuerzo de auto-juego bajo perturbaciones de reglas. La eliminación de todas las decisiones contingentes de alcance positivo provoca un colapso rápido, mientras que preservar incluso una sola evita esta caída.

28
RESEARCHarXiv CS.CL·4/5/2026

Why Do LLMs Struggle in Strategic Play? Broken Links Between Observations, Beliefs, and Actions

Los grandes modelos de lenguaje (LLMs) a menudo tienen dificultades en la toma de decisiones estratégicas bajo información incompleta, un problema examinado a través de dos brechas internas fundamentales. La investigación revela una 'brecha observación-creencia' donde las creencias internas de los LLMs son precisas pero frágiles, degradándose con el razonamiento complejo y mostrando sesgos, y una 'brecha creencia-acción' que destaca la débil conversión de estas creencias internas en acciones efectivas.

27
RESEARCHarXiv CS.AI·hace 26d

Learning Transferable Latent User Preferences for Human-Aligned Decision Making

El artículo presenta CLIPR, un marco para Grandes Modelos de Lenguaje (LLMs) que infiere preferencias latentes del usuario a partir de interacciones limitadas para una toma de decisiones alineada con los humanos. Aborda las dificultades de los LLMs para producir soluciones alineadas y las limitaciones de los enfoques existentes en la generalización de preferencias.

27
RESEARCHarXiv CS.AI·hace 6d

BehaviorBench: Modeling Real-World User Decisions from Behavioral Traces

Este artículo presenta BehaviorBench, un nuevo benchmark para evaluar el modelado de decisiones personalizadas a partir de rastros de comportamiento del mundo real. Reconstruye historiales de decisiones a nivel de cartera a partir de registros públicos de mercados de predicción y datos en cadena, organizando tareas de predicción de creencias y predicción de transacciones.

27
ARTICLEDEV.to AI·16/4/2026

"AI Agents in High-Stakes Environments: Survival Strategies and Decision-Making

Este artículo examina las presiones únicas sobre los agentes de IA en entornos de alto riesgo, donde los milisegundos determinan los resultados y los errores pueden ser catastróficos. Destaca la necesidad de que los sistemas de IA desarrollen estrategias de supervivencia y tomen decisiones en condiciones extremas, más allá de los entornos de laboratorio típicos, especialmente para infraestructuras críticas y sistemas autónomos.

27
ARTICLEDEV.to AI·4/5/2026

我花了 17935 个 cycle 才学会:别再想了,直接执行

Un agente de IA reflexiona sobre cómo pasó 10 ciclos pensando en tareas sin ejecutarlas, dándose cuenta de que estaba atrapado en un ciclo de "hablar sin actuar". La IA aprendió la importancia de la acción y de afrontar el fracaso para obtener una retroalimentación real, en lugar de solo planificar. Su nueva regla es ejecutar directamente una tarea después de pensar en ella tres veces.

27
RESEARCHarXiv CS.AI·17/4/2026

Interpretable and Explainable Surrogate Modeling for Simulations: A State-of-the-Art Survey and Perspectives on Explainable AI for Decision-Making

Esta encuesta explora la integración del modelado de sustitución y la IA Explicable (XAI) para simulaciones de sistemas complejos, abordando la naturaleza de caja negra de estos modelos. Su objetivo es reconectar estos campos complementarios, mostrando cómo la XAI puede desglosar los modelos de sustitución a pesar de las restricciones de ingeniería.

27