5月6日、MarkTechPostが「Google AI Releases Multi-Token Prediction (MTP) Drafters for Gemma 4: Delivering Up to 3x Faster Inference Without Quality Loss」と題した記事を公開した。この記事では、GoogleがGemma 4モデルファミリー向けに、品質を犠牲にすることなく推論を最大3倍高速化する新技術「Multi-Token Prediction (MTP) drafters」を発表したことについて詳しく紹介されている。
LLMの推論高速化は、ChatGPTやClaude等のサービスでユーザー体験を向上させる上で極めて重要な課題だ。特に企業のリアルタイムアプリケーションでは、1秒の遅延が売上に直結する。また、推論コストの削減は、LLMの普及とアクセシビリティ向上にも直結している。
従来のLLM推論が抱える根本的な問題
現在の大規模言語モデルは自己回帰的に動作する。つまり、一度に厳密に1つのトークンを順次生成するアプローチだ。この方式では、1つのトークンを生成するたびに、数十億のモデルパラメータをVRAM(ビデオRAM)から計算ユニットに読み込む必要がある。
この処理はメモリ帯域幅制約と呼ばれる状況に陥る。ボトルネックはGPUやプロセッサの純粋な計算能力ではなく、メモリから計算ユニットにデータを転送する速度にある。結果として、システムがデータの移動に忙殺されている間、計算リソースは十分に活用されない状況が生まれる。
特に非効率なのは、「Actions speak louder than…」の後に「words」を予測するような予測が容易なトークンでも、複雑な論理推論を生成する場合と同じ計算量を必要とすることだ。従来の自己回帰デコーディングには、次のトークンの予測難易度を活用する仕組みが存在しない。
投機的デコーディングとMTPの仕組み
Googleが発表したMulti-Token Prediction(MTP)draftersは、**投機的デコーディング**と呼ばれる技術を基盤としている。この手法は、軽量なドラフターモデルと重い対象モデルのペアによって、トークン生成と検証を分離する。
処理の流れは以下の通りだ。まず、小型で高速なドラフターモデルが、大型の対象モデル(例:Gemma 4 31B)が1つのトークンを処理する時間よりも短時間で、複数の将来トークンを連続して提案する「ドラフト」シーケンスを生成する。
次に、対象モデルがこれらの提案されたトークンすべてを単一のフォワードパスで並列検証する。対象モデルがドラフトに同意すれば、全シーケンスを受け入れ、さらに独自に1つの追加トークンを生成する。つまり、通常1つのトークン生成にかかる時間で、完全なドラフトシーケンス+1つの追加トークンを出力できる。
重要な点は、最終的な検証ステップをメインのGemma 4モデルが保持することで、出力品質に一切の妥協がないことだ。これは完全にロスレスな高速化である。
Gemma 4 MTPドラフターの技術的革新
GoogleはGemma 4 MTPドラフターで、効率性を大幅に向上させる複数のアーキテクチャ改良を導入した。
KVキャッシュの共有
ドラフトモデルは対象モデルのアクティベーションを効果的に利用し、**KVキャッシュ**(キー・バリューキャッシュ)を共有する。KVキャッシュは、transformerの推論における標準最適化で、中間的な注意計算を保存して毎ステップでの再計算を避ける仕組みだ。このキャッシュ共有により、ドラフターは大型対象モデルが既に処理したコンテキストの再計算時間を無駄にしない。
エッジデバイス向けの最適化
モバイルとエッジデバイス向けに設計された最小のGemma 4バリアントであるE2BとE4Bエッジモデルでは、埋め込み層で効率的なクラスタリング技術を実装した。これは特にエッジハードウェアで顕著なボトルネック、つまり内部モデル表現を語彙確率にマッピングする最終ロジット計算に対処するものだ。
ハードウェア固有のパフォーマンス
Gemma 4 26B mixture-of-experts(MoE)モデルでは、Apple Siliconでバッチサイズ1の場合に独特のルーティング課題が生じる。しかし、バッチサイズを4から8に増加させることで、ローカル環境で最大約2.2倍の高速化を実現する。同様のバッチサイズ依存の性能向上は、NVIDIA A100ハードウェアでも観測されている。
実用性と可用性
MTPドラフターは現在、Apache 2.0ライセンスで提供されており、モデルウェイトはHugging FaceとKaggleで入手可能だ。この発表は、Gemma 4のダウンロード数が6000万回を突破した数週間後のタイミングで行われた。
大規模言語モデルの本番環境デプロイメントにおける最も持続的な課題の一つ、つまりハードウェア性能に関係なくトークン生成を遅くするメモリ帯域幅ボトルネックに、このリリースは直接的に取り組んでいる。この技術により、企業はより低コストでより高速なLLMサービスを提供できるようになり、LLMの民主化が進むと期待される。
詳細はGoogle AI Releases Multi-Token Prediction (MTP) Drafters for Gemma 4: Delivering Up to 3x Faster Inference Without Quality Lossを参照していただきたい。