← heapsort-ai

online learning

5 items

RESEARCHarXiv CS.AI·hace 27d

OLIVIA: Online Learning via Inference-time Action Adaptation for Decision Making in LLM ReAct Agents

OLIVIA es un nuevo framework de adaptación de acciones en tiempo de inferencia diseñado para agentes LLM estilo ReAct, con el objetivo de mejorar la toma de decisiones en tareas secuenciales. Ofrece una capa de decisión explícita para puntuar acciones candidatas y adaptación en línea, abordando las limitaciones de la manipulación indirecta del contexto en los métodos actuales.

29
RESEARCHarXiv CS.LG·hace 6d

Human-in-the-Loop Contextual Bandits for Short-Term Rental Dynamic Pricing: Structural Equivalence of Historical Warm-Up and Approval-Gated Live Learning

Este artículo introduce el framework Human-in-the-Loop Gated Bandit (HITL-GB) para la fijación de precios dinámica en mercados de alquiler a corto plazo. Demuestra que los datos históricos de precios son estructuralmente equivalentes a los datos de calentamiento en política, reduciendo drásticamente el período de arranque en frío para el aprendizaje de bandidos en línea.

27
ARTICLEDEV.to AI·13/4/2026

A Learning Platform That Learns with You

Muchos sistemas de aprendizaje en línea no logran aprender del comportamiento del estudiante, lo que resulta en una falta de orientación personalizada. La plataforma NeuroLearn (Smart Tutor) fue desarrollada para ofrecer una experiencia de aprendizaje personalizada, incorporando un panel visual y un sistema de Flashcards para fomentar la recuperación activa y mejorar la retención del conocimiento.

25