7月1日、Hassan Mujtabaが「NVIDIA Slashes DeepSeek v4 Token Costs By Up To 5x Just One Month After Launch, Through Pure Blackwell Software Tuning」と題した記事を公開した。NVIDIAがBlackwell向けの推論ソフトウェアスタックの最適化のみによって、DeepSeek V4のトークンコストをリリースからわずか1ヶ月で最大5分の1に削減したという内容だ。ハードウェアの世代交代なし、追加投資なし——ソフトウェアチューニングだけでこの数字を達成したことは、AIインフラのROI計算を根本的に塗り替えうる出来事である。
ハードウェア追加なし、ソフト最適化だけで5倍のコスト削減
AI推論コストの主要指標であるコスト・パー・トークン(Cost Per Token)において、NVIDIAがBlackwell GPUの純粋なソフトウェアチューニングで大幅な改善を達成した。
NVIDIAは6月下旬、フルスタック推論ソフトウェアの最新最適化により、Blackwell GB200およびGB300上でDeepSeek V4のトークンコストを最大5倍削減したと発表した。DeepSeek V4のリリースからわずか1ヶ月後の成果だ。
注目すべきは、この改善がハードウェアの世代交代ではなく、ソフトウェアスタックの継続的なチューニングによるものという点である。新たなGPUを導入しなくても、既存のBlackwellプラットフォームで大幅なコスト削減が実現できることを示している。
3層構造のソフトウェアスタックが最適化を複利的に積み上げる
NVIDIAは、このコスト削減が「個々の最適化をシステムレベルの性能に変換する」ことで実現したと説明している。具体的には以下の3層が連携する構造だ。
- Production Operation(運用層):分散サービング、オーケストレーション、オートスケーリング、メモリ管理を統合し、推論を適切なコンピュートとストレージリソース上で実行する
- Application Acceleration(アプリケーション加速層):コンピュートと通信のオーバーラップ、カーネルフュージョン(複数のGPUカーネル処理を統合して転送コストを削減する手法)などのランタイム最適化により高スループットを実現しつつ、開発者によるチューニングの余地も確保する
- Infrastructure Access(インフラアクセス層):NVIDIAのGPU、ネットワーク、メモリ機能を、デバイスの命令セットやデータ転送プロトコルを開発者が直接管理せずに活用できるよう抽象化する
この3層が統合されたシステム上で動作することで、最適化効果が複利的に積み上がる。さらにNVLink、NVFP4(NVIDIAの4ビット浮動小数点フォーマット)、Multi-Token-Predictionなどの技術が組み合わさることで、コスト削減に加えてスループット面でも大きな改善が生まれている。元記事によれば、これら複数の最適化技術を組み合わせた結果として最大20倍のスループット向上が達成されたとしており、5倍のコスト削減はその一側面を示す数字と位置づけられている。
主要推論プロバイダーがすでに本番活用
NVIDIAのBlackwellプラットフォームを活用している主要企業は、すでにこれらの改善を本番環境に取り込んでいる。
なお、以下の事例でBasetenが提供しているのは「DeepSeek V4 Pro」と元記事に記載されており、本記事で言及している「DeepSeek V4」と同一モデルを指すのか別モデルなのかは元記事上では明示されていない。他の事例はいずれも「DeepSeek V4」として紹介されている。
- Baseten:TensorRT-LLMオープンソースライブラリを使い、Blackwell上でDeepSeek V4 Proを提供。推論・コーディング・長文脈ワークロードで最大50%多いトークン/秒を達成した
- **Cognition**:NVIDIAのDynamo推論フレームワークを採用し、強化学習ワークロードのスケーリングインフラを自社構築せずに実現
- **Deep Infra**:NVIDIAの推論ソフトウェアスタックにより、Blackwell上でDeepSeek V4を含むフロンティアオープンソースモデルをday-zeroから提供
- **Together AI**:TensorRT-LLMをBlackwell上で活用し、CursorのリアルタイムコーディングUX向けのモデル最適化から本番エンドポイントまでの時間を短縮
なぜ今これが重要か
DeepSeek V4はMoE(Mixture of Experts)アーキテクチャを採用した大規模言語モデルであり、元記事によれば総パラメータ数は1.6兆に上る。MoEは推論時にすべてのパラメータを使用するわけではなく、入力に応じて一部の「エキスパート」サブネットワークのみを活性化する設計だが、それでもモデル規模が巨大なため推論コストは高水準になりやすい。
そのコストをリリース1ヶ月でソフトウェアのみで5分の1に下げられるという事実は、AIインフラのROI計算を根本的に変えうる。「どのGPUを買うか」だけでなく「そのGPU上でどのソフトウェアスタックを動かすか」がコスト競争力を左右するフェーズに入ってきた。
詳細はNVIDIA Slashes DeepSeek v4 Token Costs By Up To 5x Just One Month After Launch, Through Pure Blackwell Software Tuningを参照していただきたい。