← heapsort-ai

large language models

262 items

DOCDEV.to AI·24/4/2026

How to implement Claude conversation history without storing everything (token-efficient pattern)

Este contenido aborda un error común en el desarrollo de aplicaciones con Claude: enviar el historial completo de la conversación con cada solicitud, lo que resulta en altos costos de tokens. Propone un patrón eficiente en el uso de tokens para gestionar el historial de conversaciones, asegurando la funcionalidad mientras se controlan los gastos de la API.

27
RESEARCHarXiv CS.CL·15/4/2026

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

Self-Distillation Zero (SD-Zero) es un nuevo método de post-entrenamiento que es más eficiente en muestras que el aprendizaje por refuerzo tradicional, sin necesidad de profesores externos o demostraciones de alta calidad. Funciona entrenando un único modelo para ser tanto Generador como Revisor, convirtiendo las recompensas binarias dispersas en supervisión densa a través de la autodestilación.

27
RESEARCHarXiv CS.CL·15/4/2026

Narrative over Numbers: The Identifiable Victim Effect and its Amplification Under Alignment and Reasoning in Large Language Models

Esta investigación examina sistemáticamente el Efecto de la Víctima Identificable (EVI) en Grandes Modelos de Lenguaje, un sesgo cognitivo que favorece a víctimas narrativamente descritas sobre grupos estadísticos. El estudio empírico a gran escala en 16 LLM de frontera evalúa si estos sistemas heredan irracionalidades afectivas humanas en aplicaciones críticas como el triaje humanitario y la moderación de contenido.

27
RESEARCHarXiv CS.LG·15/4/2026

Disposition Distillation at Small Scale: A Three-Arc Negative Result

Este artículo describe un intento de destilar disposiciones conductuales en pequeños modelos de lenguaje (0.6B-2.3B parámetros) a través de una tubería de destilación. Las ganancias iniciales reportadas fueron posteriormente falsificadas debido a artefactos de evaluación, lo que resultó en un resultado negativo para la hipótesis central y dio lugar a tres arcos de investigación posteriores.

27
RESEARCHarXiv CS.LG·15/4/2026

A Layer-wise Analysis of Supervised Fine-Tuning

Esta investigación analiza el Supervised Fine-Tuning (SFT), revelando que las capacidades de seguir instrucciones emergen distintamente en las capas: las capas medias son estables, mientras que las finales son muy sensibles. Aprovechando esto, los autores proponen Mid-Block Efficient Tuning, que actualiza capas intermedias críticas, superando a LoRA estándar con menor sobrecarga de parámetros.

27
RESEARCHarXiv CS.AI·25/4/2026

Adaptive Test-Time Compute Allocation with Evolving In-Context Demonstrations

Este trabajo introduce un marco innovador para la asignación adaptativa de cómputo en tiempo de prueba, ajustando conjuntamente dónde se gasta la computación y cómo se realiza la generación. El método utiliza una fase de calentamiento para identificar consultas fáciles y luego concentra más computación en consultas no resueltas, remodelando las distribuciones de generación con demostraciones en contexto en evolución.

27
RESEARCHarXiv CS.AI·13/4/2026

Model Space Reasoning as Search in Feedback Space for Planning Domain Generation

Esta investigación explora el uso de un marco de retroalimentación de modelo de lenguaje agéntico para generar dominios de planificación de alta calidad a partir de descripciones de lenguaje natural aumentadas. Evalúa el impacto de varios mecanismos de retroalimentación simbólica, como puntos de referencia y validación de planes, junto con búsqueda heurística para optimizar la calidad del dominio.

27
RESEARCHarXiv CS.LG·13/4/2026

Distributionally Robust Token Optimization in RLHF

Para abordar la susceptibilidad de los LLMs a fallos por pequeños cambios en las instrucciones, especialmente en el razonamiento de varios pasos, los investigadores proponen la Optimización de Tokens Robusta Distribucionalmente (DRTO). Este enfoque combina el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) a nivel de token con la Optimización Robusta Distribucionalmente (DRO) para mejorar la consistencia bajo cambios de distribución, mostrando mejoras en benchmarks de razonamiento matemático.

27
RESEARCHarXiv CS.CL·1/5/2026

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Este artículo presenta el Length Value Model (LenVM), un nuevo marco a nivel de token para modelar la longitud de generación restante en modelos autorregresivos. Al formular el modelado de la longitud como un problema de estimación de valor, LenVM proporciona una señal eficaz, sin anotaciones y escalable para LLM y VLM, mejorando el rendimiento en la coincidencia exacta de longitud.

27
RESEARCHarXiv CS.CL·30/4/2026

SpecTr-GBV: Multi-Draft Block Verification Accelerating Speculative Decoding

SpecTr-GBV es un nuevo método de decodificación especulativa que unifica estrategias de multi-borrador y verificación de bloques voraz para acelerar la inferencia de modelos de lenguaje. Formula el paso de verificación como un problema de transporte óptimo, mejorando tanto la eficiencia teórica como el rendimiento empírico al alcanzar la longitud de aceptación óptima.

27
RESEARCHarXiv CS.CL·9/4/2026

Hallucination as output-boundary misclassification: a composite abstention architecture for language models

Este artigo enquadra a alucinação em grandes modelos de linguagem como um erro de classificação e propõe uma intervenção composta por recusa baseada em instruções e um gate de abstenção estrutural. O gate utiliza um score de déficit de suporte de sinais como auto-consistência e cobertura de citação, mas a avaliação controlada mostrou que nenhum mecanismo isolado foi suficiente para mitigar totalmente o problema.

27
RESEARCHarXiv CS.AI·30/4/2026

Operating-Layer Controls for Onchain Language-Model Agents Under Real Capital

Esta investigación estudia la fiabilidad de agentes autónomos de modelos de lenguaje que negocian ETH real en un mercado onchain, demostrado por un despliegue de 21 días que generó millones de invocaciones y $20M en volumen. El estudio mostró un 99.9% de éxito en la liquidación, proporcionando un rastro a gran escala para analizar la robustez de estos sistemas más allá del modelo base.

27
RESEARCHarXiv CS.CL·14/4/2026

HumorGen: Cognitive Synergy for Humor Generation in Large Language Models via Persona-Based Distillation

Esta investigación presenta el Cognitive Synergy Framework para abordar el desafío de la generación de humor en LLMs, que entra en conflicto con su objetivo estándar de predecir la siguiente palabra. Utiliza un enfoque Mixture-of-Thought con seis personas cognitivas para sintetizar diversas perspectivas cómicas, creando un conjunto de datos teóricamente fundamentado utilizado para afinar un modelo de 7B parámetros que supera a líneas de base más grandes.

27
RESEARCHarXiv CS.CL·30/4/2026

Information Extraction from Electricity Invoices with General-Purpose Large Language Models

Este estudio evalúa la capacidad de LLMs de propósito general para extraer información de facturas de electricidad españolas sin ajuste fino, demostrando que la calidad del prompt es más crítica que la optimización de hiperparámetros. Las estrategias few-shot superan a las zero-shot en más de 19 puntos porcentuales de F1-score.

27