← heapsort-ai

Kaggle

4 items

ARTICLE↑ trendingReddit r/MachineLearning·23/4/2026

2b or not 2b ? Custom LLM Scheduling Competition [P]

Se ha lanzado una competición en Kaggle centrada en optimizar el coste de los tokens para las respuestas de LLM, desafiando a los participantes a decidir entre ejecutar un modelo pequeño o saltarse la pregunta. El objetivo es minimizar el coste ponderado, considerando los costes de computación, el fallo y la penalización por saltarse una respuesta correcta.

41
RESEARCHarXiv CS.LG·hace 8d

LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

Esta investigación introduce LongDS, un nuevo benchmark para evaluar agentes de IA en tareas de análisis de datos de largo horizonte y múltiples turnos, compuesto por 68 tareas de notebooks reales de Kaggle. Revela que los modelos de vanguardia alcanzan solo un 48,45% de precisión, con una caída significativa del rendimiento en turnos posteriores, destacando un fallo crítico en el seguimiento del contexto analítico evolutivo.

27