decoding

3 items

RESEARCHarXiv CS.CL·hace 7d

ART: Attention Run-time Termination for Efficient Large Language Model Decoding

La decodificación de contexto largo en Large Language Models (LLMs) está severamente limitada por el ancho de banda de la memoria del caché Key-Value (KV). Este artículo propone Attention Run-time Termination (ART), un mecanismo ligero que optimiza el acceso al caché KV, logrando un 20% más de rendimiento de generación.

LLMs memory management decoding performance

RESEARCHarXiv CS.LG·hace 29d

Breaking the Illusion: When Positive Meets Negative in Multimodal Decoding

Se presenta un nuevo framework de inferencia sin entrenamiento, Decodificación Positiva y Negativa (PND), para abordar la alucinación de objetos en Modelos de Visión-Lenguaje (VLMs). PND refuerza la fidelidad visual mediante un mecanismo de contraste de doble vía, logrando un rendimiento de vanguardia sin necesidad de reentrenamiento.

multimodal AI hallucination Vision-Language Models decoding

RESEARCHarXiv CS.CL·hace 27d

Sampling More, Getting Less: Calibration is the Diversity Bottleneck in LLMs

Este estudio aborda la falta de diversidad en las salidas de los LLM, atribuyéndola a cómo los modelos asignan la masa de probabilidad entre continuaciones válidas e inválidas durante la decodificación. Introduce un marco de validez-diversidad que descompone el problema en dos formas complementarias de descalibración: calibración de orden y calibración de forma.

Calibration diversity LLMs decoding