decoding

3 items

RESEARCHarXiv CS.CL·7d atrás

ART: Attention Run-time Termination for Efficient Large Language Model Decoding

A decodificação de contexto longo em Large Language Models (LLMs) é severamente limitada pela largura de banda da memória do cache Key-Value (KV). Este artigo propõe o Attention Run-time Termination (ART), um mecanismo leve que otimiza o acesso ao cache KV, resultando em um aumento de 20% no throughput de geração.

LLMs memory management decoding performance

RESEARCHarXiv CS.LG·29d atrás

Breaking the Illusion: When Positive Meets Negative in Multimodal Decoding

Um novo framework de inferência chamado Decodificação Positiva e Negativa (PND) foi introduzido para combater a alucinação de objetos em Modelos de Visão-Linguagem (VLMs). Ele amplifica evidências visuais e penaliza a geração dominada por priors linguísticos, resultando em desempenho de ponta sem retreinamento.

multimodal AI hallucination Vision-Language Models decoding

RESEARCHarXiv CS.CL·27d atrás

Sampling More, Getting Less: Calibration is the Diversity Bottleneck in LLMs

Este estudo aborda a falta de diversidade nas saídas de LLMs, atribuindo-a à forma como os modelos alocam a massa de probabilidade entre continuações válidas e inválidas durante a decodificação. Ele introduz um framework de validade-diversidade que decompõe o problema em duas formas complementares de recalibração: calibração de ordem e calibração de forma.

Calibration diversity LLMs decoding