6月2日、Fergus Finnが「Bringing up DeepSeek-V4-Flash on AMD MI300X」と題した記事を公開した。この記事では、深刻なGPU不足の中でNVIDIA H100の代替選択肢として注目されるAMD MI300X上で、中国DeepSeek社の最新大規模言語モデル「DeepSeek-V4-Flash」の動作を実現するまでの技術的挑戦について詳しく解説されている。
H100の半額・2倍メモリという衝撃的なコストパフォーマンス
2026年現在、AI業界は深刻なGPU不足に悩まされている。生成AI需要の爆発的増加により、NVIDIA H100の価格は1年間で40%上昇し、主要クラウドプロバイダーのオンデマンド容量はすべて売り切れ状態だ。この状況下で、AMD MI300Xが注目を集めている。
MI300Xの魅力的なスペックは以下の通りだ:
- 192GBのHBM3メモリ(H100の80GBの2.4倍)
- H100と同等のFP8計算性能
- 定価はH100の約半分
- 現在でもオンデマンドでレンタル可能
推論処理向けクラウドサービスDoublewordを手掛けるFinnらは、この圧倒的な価格差に着目し、MI300X上での実用的なLLM動作に挑戦した。対象として選んだのは、DeepSeek-V4の軽量版であるDeepSeek-V4-Flashだ。これは中国DeepSeek社が開発した、スパース注意機構を採用した高性能な大規模言語モデルである。
ソフトウェアの壁:なぜMI300Xは過小評価されているのか
ハードウェア性能では優秀なMI300Xだが、ソフトウェアエコシステムの未成熟が最大の障壁となっている。AMDのROCmプラットフォームやGPU計算フレームワークHIPは着実に成熟しているものの、人気の推論エンジンであるvLLMとの組み合わせではまだ課題が残っている。
課題1:FP8データ型の方言問題
最初の大きな問題はFP8(8ビット浮動小数点)データ型の互換性だった。FP8には2つの標準が存在する:
- AMDとGraphcore方式(2022年提案、fnuz方言)
- Arm、Intel、NVIDIA方式(Open Compute Project標準)
MI300Xはfnuz方言のみに対応しているが、両者は指数バイアスが1だけ異なるため、間違った方言で読み取ると正確に2倍の誤差が生じる。vLLMはe4m3対e5m2の違いには対応していたが、fnuz対OCPの違いは認識していなかった。
課題2:DeepSeek-V4特有の注意機構への対応不足
DeepSeek-V4の注意機構は従来のTransformerとは大きく異なる。各クエリが学習されたインデクサーによって選択されたKVキャッシュのtop-kサブセットのみに注目するスパース(疎)な仕組みを採用している。この処理には多くの最適化されたカーネルが必要だが、AMD向け高速カーネルライブラリAITERのカバレッジが不十分だった。
AITERパスが欠けている部分では汎用Tritonカーネルにフォールバックするため、処理速度が数倍遅くなってしまう。特にMI300X(gfx942アーキテクチャ)では以下の機能でパスが不足していた:
- ページド MQA ロジット
- スパース MLA プリフィル
- スパース MLA デコード
課題3:HIPグラフの制約
HIPグラフはCUDAグラフのAMD版で、ウォームアップ時に操作ストリームを記録し、その後各ステップで記録されたグラフを再生する仕組みだ。DeepSeek-V4のように多くの動的要素を持つモデルでは、グラフ機能なしでは数百の小さなカーネル起動が必要になり、性能が大幅に低下する。
ただし、キャプチャ領域は入力に対する純粋関数でなければならないという制約があり、ホストからの読み取りや動的なテンソル割り当てなどは適切に処理する必要があった。
解決策と成果:8.6%の性能向上を実現
上記の課題を一つずつ解決した結果、著者らは以下の成果を得た:
- 正確性の問題を完全に解決
- GPU1台あたりのスループットを2,485トークン/秒から2,699トークン/秒へ8.6%向上
- H100の約半分の価格で2倍以上のメモリ容量を実現
特に192GBという大容量メモリは、より大きなモデルや長いコンテキスト処理において大きなアドバンテージとなる。
将来への展望:ソフトウェアギャップの解消
今回の作業を困難にした要因の多くは一時的なものだとFinnは指摘する。FP8方言の問題はCDNA3世代(MI300X)固有で、次世代のMI325、MI350、MI355XはすべてOCP標準FP8に移行予定だ。AITERのカバレッジギャップも、AMDのカーネル開発がハードウェアに追いつくにつれて解消される見込みだ。
AMDハードウェアの潜在能力は以前から高かったが、ソフトウェアギャップが縮まりつつある背景には、AMDのROCmエコシステムへの注力と、AIアシストコーディングツールの普及により、こうした移植作業のコストが大幅に下がったことがある。GPU不足が深刻化する中、MI300Xのような代替選択肢の重要性はさらに高まりそうだ。
詳細はBringing up DeepSeek-V4-Flash on AMD MI300Xを参照していただきたい。