RESEARCH28
Accelerating PayPal's Commerce Agent with Speculative Decoding: An Empirical Study on EAGLE3 with Fine-Tuned Nemotron Models
arXiv CS.LG·23. April 2026
Diese Arbeit bewertet spekulatives Decoding mit EAGLE3 zur Optimierung des PayPal Commerce Agenten, der auf feinabgestimmten Nemotron-Modellen basiert. Die Studie zeigt signifikante Leistungsverbesserungen, darunter eine Steigerung des Durchsatzes um 22-49% und eine Latenzreduktion um 18-33% ohne zusätzliche Hardwarekosten.
Performance benchmarkingLLM optimizationInference accelerationlarge language modelsSpeculative Decoding
Original lesen ↗