AMDがLLM推論を最大2倍に高速化 — 「先読みして後でまとめて検証する」投機的デコードとFP8量子化を組み合わせた実装報告
DRANK

7月3日、Larry Li、Chun Fang、Chao Li、Xikai Meng、Andy Luo、Haichen Zhang、Bowen Bao、Spandan Tiwari、Ashish Sirasaoが「Accelerating Large-Scale LLM Inference on AMD Instinct MI350X/MI355X with Eagle3 and AMD Quark」と題した記事を公開した。この記事では、AMD Instinct MI355X GPU上でEagle3投機的デコードとAMD Quark FP8量子化を組み合わせ、Kimi-K2.5やMiniMax-M2.5といった大規模LLMの推論スループットを大幅に改善する技術的な取り組みについて詳しく紹介されている。

by @tf_official
Related Topics: AI Machine Learning Deep Learning