decoding

3 items

RESEARCHarXiv CS.CL·il y a 7j

ART: Attention Run-time Termination for Efficient Large Language Model Decoding

Le décodage de contexte long dans les Large Language Models (LLMs) est fortement contraint par la bande passante mémoire du cache Key-Value (KV). Cet article propose l'Attention Run-time Termination (ART), un mécanisme léger qui optimise l'accès au cache KV, augmentant le débit de génération de 20%.

LLMs memory management decoding performance

RESEARCHarXiv CS.LG·il y a 29j

Breaking the Illusion: When Positive Meets Negative in Multimodal Decoding

Un nouveau cadre d'inférence sans entraînement, la Décodification Positive et Négative (PND), est introduit pour lutter contre l'hallucination d'objets dans les Modèles Vision-Langage (VLM). Le PND assure la fidélité visuelle via un mécanisme de contraste à double chemin, offrant des performances de pointe sans réentraînement.

multimodal AI hallucination Vision-Language Models decoding

RESEARCHarXiv CS.CL·il y a 27j

Sampling More, Getting Less: Calibration is the Diversity Bottleneck in LLMs

Cette recherche examine le manque de diversité dans les sorties des LLM, l'attribuant à la manière dont les modèles allouent la masse de probabilité entre les continuations valides et invalides lors du décodage. Elle introduit un cadre validité-diversité qui décompose le problème en deux formes complémentaires de défaut de calibration : la calibration d'ordre et la calibration de forme.

Calibration diversity LLMs decoding