← heapsort-ai

large language models

262 items

RESEARCHarXiv CS.LG·16/4/2026

Pareto-Optimal Offline Reinforcement Learning via Smooth Tchebysheff Scalarization

Este trabajo introduce STOMP, un novedoso algoritmo de aprendizaje por refuerzo fuera de línea para optimización multiobjetivo utilizando la escalarización suave de Tchebysheff. Aborda la limitación de la escalarización lineal para recuperar frentes de Pareto no convexos, crucial para alinear modelos de lenguaje grandes y otras aplicaciones con recompensas conflictivas.

31
RESEARCHarXiv CS.AI·hace 5d

Thinking Through Signs: PEEL as a Semiotic Scaffolding for Epistemically Accountable AI-Enabled Research

Este comentario presenta PEEL, un andamiaje de trabajo que combina la lectura distante determinista con la interpretación de LLM, basado en la semiótica peirceana y el razonamiento abductivo. Aplicado a condensaciones generadas por IA, PEEL revela distorsiones sistemáticas invisibles sin medición no-IA, sugiriendo que los instrumentos deterministas deben acompañar a las herramientas de IA para asegurar la fidelidad y la autoridad epistémica.

31
ARTICLEDEV.to AI·hace 3d

<think>

Este contenido se centra en comparar los costos de diferentes modelos de IA, destacando alternativas más económicas a GPT-4o. Explora ahorros significativos al usar modelos como GPT-4o-mini, DeepSeek V4 Flash y Qwen3-32B, que pueden ser hasta 40 veces más rentables.

30
ARTICLEDEV.to AI·hace 3d

<think>

Este artículo describe el descubrimiento de un desarrollador independiente sobre ahorros sustanciales al utilizar modelos de IA alternativos a través de la Global API, comparando sus precios con GPT-4o. Explica cómo reducir los gastos de inferencia de modelos de lenguaje grandes aprovechando una amplia gama de opciones disponibles.

30
ARTICLEDEV.to AI·13/4/2026

Everyone thinks ChatGPT is an AI agent. It's not.

Este artículo profundiza en la distinción crucial entre un chatbot con herramientas y un verdadero agente de IA, argumentando que la confusión entre ambos es la razón por la que muchas startups de "agentes de IA" fracasan. Explora lo que realmente convierte a un modelo de lenguaje en un agente, capaz de realizar acciones reales y encadenarlas de forma autónoma.

30
RESEARCHarXiv CS.CL·14/4/2026

GIANTS: Generative Insight Anticipation from Scientific Literature

Este artículo introduce la tarea de "anticipación de insights", donde los modelos de lenguaje predicen la idea central de un futuro artículo científico a partir de sus predecesores. Para evaluarlo, los autores crearon GiantsBench, un benchmark de 17.000 ejemplos, y presentan GIANTS-4B, un LM entrenado con aprendizaje por refuerzo.

30
RESEARCHarXiv CS.CL·hace 5d

Cross-Prompt Generalization in Detecting AI-Generated Fake News Using Interpretable Linguistic Features

Este estudio investiga la generalización entre prompts en la detección de noticias falsas generadas por IA utilizando características lingüísticas interpretables, como la diversidad léxica y la legibilidad. Los resultados muestran un alto rendimiento constante en la detección, incluso cuando los modelos son entrenados y probados con diferentes estrategias de prompt.

29
RESEARCHarXiv CS.AI·hace 13d

Personalizing Embodied Multimodal Large Language Model Agents over Long-term User Interactions

Este artículo propone POLAR, un framework multimodal aumentado con memoria para agentes encarnados personalizados en interacciones de usuario a largo plazo. POLAR organiza interacciones previas en un grafo de conocimiento multimodal, capturando memoria semántica y episódica para guiar la ejecución de tareas encarnadas.

29
ARTICLEDEV.to AI·11/4/2026

Why Your pip Install Output Doesn't Belong in Claude's Context

Este artigo discute como o output detalhado do comando `pip install` é desnecessário e prejudicial para o contexto de modelos de IA como o Claude, que precisam apenas saber se a instalação de pacotes Python foi bem-sucedida ou falhou. Detalhes verbosos como barras de progresso e logs de compilação são considerados ruído que não auxilia a IA na depuração.

29
RESEARCHarXiv CS.CL·20/4/2026

Think Multilingual, Not Harder: A Data-Efficient Framework for Teaching Reasoning Models to Code-Switch

Esta investigación introduce un marco de ajuste fino (fine-tuning) eficiente en datos para enseñar a los modelos de razonamiento de lenguaje a alternar idiomas (code-switch) de manera efectiva en tareas de razonamiento. Busca identificar comportamientos beneficiosos de alternancia de idiomas, analizando sistemáticamente rastros de razonamiento diversos.

29
RESEARCHarXiv CS.LG·16/4/2026

Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation

Este artículo presenta una condición necesaria para el diseño de algoritmos de aprendizaje intragrupal en Reinforcement Learning, exigiendo que los objetivos mantengan la intercambiabilidad de gradientes para evitar derivas irrelevantes. Propone transformaciones mínimas para restaurar esta estructura de cancelación, lo que estabiliza el entrenamiento y mejora la eficiencia de la muestra.

29
RESEARCHarXiv CS.LG·7/5/2026

Structured Progressive Knowledge Activation for LLM-Driven Neural Architecture Search

Este artículo introduce Structured Progressive Knowledge Activation (SPARK) para abordar el desafío de integrar el conocimiento arquitectónico en la búsqueda de arquitectura neuronal (NAS) impulsada por LLMs. SPARK mitiga el "entanglement funcional" al permitir la edición condicionada por factores, lo que lleva a modificaciones arquitectónicas más específicas y confiables.

29
RESEARCHarXiv CS.LG·22/4/2026

Handling and Interpreting Missing Modalities in Patient Clinical Trajectories via Autoregressive Sequence Modeling

Este trabajo aborda el desafío de las modalidades faltantes en los datos clínicos multimodales para el diagnóstico, reformulándolo como una tarea de modelado de secuencia autorregresiva. Utiliza decodificadores causales de LLMs y un preentrenamiento contrastivo consciente de la falta para superar las bases en benchmarks como MIMIC-IV y eICU.

29
RESEARCHarXiv CS.LG·28/4/2026

Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

Este trabajo aborda la significativa huella de memoria del caché Key-Value (KV) en modelos de transformadores, proponiendo una optimización a través de la dimensión de profundidad. Introduce un método para el intercambio de caché entre capas, demostrando que eliminar el caché de una capa puede ser eficiente sin pérdida de información y sugiere un enfoque de entrenamiento con atención aleatoria entre capas.

29
RESEARCHarXiv CS.LG·hace 19d

Geometry-Lite: Interpretable Safety Probing via Layer-Wise Margin Geometry

Geometry-Lite es una nueva sonda a nivel de prompt diseñada para interpretar cómo se desarrolla la evidencia de seguridad a través de las capas en grandes modelos de lenguaje. Analiza la geometría de margen capa por capa utilizando diversas lecturas para comprender la formación de límites, mejorando la detección de seguridad sobre sondas de una sola capa.

29