decoding

3 items

RESEARCHarXiv CS.CL·vor 7T

ART: Attention Run-time Termination for Efficient Large Language Model Decoding

Die Langkontext-Dekodierung in Large Language Models (LLMs) wird stark durch die Speicherbandbreite des Key-Value (KV)-Caches eingeschränkt. Dieses Papier schlägt Attention Run-time Termination (ART) vor, einen leichtgewichtigen Mechanismus, der den KV-Cache-Zugriff optimiert und einen um 20% höheren Generierungsdurchsatz erzielt.

LLMs memory management decoding performance

RESEARCHarXiv CS.LG·vor 29T

Breaking the Illusion: When Positive Meets Negative in Multimodal Decoding

Ein neues trainingsfreies Inferenz-Framework, Positive-and-Negative Decoding (PND), wird eingeführt, um Objekthalluzinationen in Vision-Language Models (VLMs) zu begegnen. PND erzwingt visuelle Treue durch einen Dual-Path-Kontrastmechanismus und erreicht Spitzenleistungen ohne erneutes Training.

multimodal AI hallucination Vision-Language Models decoding

RESEARCHarXiv CS.CL·vor 27T

Sampling More, Getting Less: Calibration is the Diversity Bottleneck in LLMs

Diese Forschung befasst sich mit dem Mangel an Diversität in den Ausgaben von LLMs und führt ihn darauf zurück, wie Modelle während der Dekodierung Wahrscheinlichkeitsmasse über gültige und ungültige Fortsetzungen verteilen. Sie stellt ein Validitäts-Diversitäts-Framework vor, das das Problem in zwei komplementäre Formen der Fehlkalibrierung zerlegt: Ordnungskalibrierung und Formkalibrierung.

Calibration diversity LLMs decoding