OpenAIがAI応答コストを半減——独自チップ「Jalapeño」開発と4つの最適化技術で、NVIDIAへの依存を分散する

7月3日、Techstrong.AIが「OpenAI Slashes AI Inference Costs by Half in Major Shift in Infrastructure Economics: Report」と題した記事を公開した。OpenAIのエンジニアチームが推論コストを50%超削減することに成功し、一時期はログアウト状態のユーザーや無料プランのChatGPTトラフィックを数百枚程度のNVIDIA GPUだけで処理できる水準にまで到達したという。さらに独自の推論チップ「Jalapeño」の開発も明らかになり、AIインフラの経済構造が大きな転換点を迎えつつある。

推論コストを半減——その中核はKVキャッシュの最適化

The Informationの報道によると、OpenAIのエンジニアチームはAIモデルの推論（inference）コストを50%超削減する最適化技術を開発した。

推論（inference）とは：モデルの学習（training）とは異なり、ユーザーのリクエストに対してモデルが応答を生成する処理のこと。学習は一度行えばよいが、推論はリクエストごとに発生するため、スケールするにつれてコストが積み上がる。

この効率化により、一時期はログアウト状態のユーザーや無料プランのChatGPTトラフィックを、数百枚程度のNVIDIA GPUだけで処理できる水準にまで到達したという。

コスト削減を支えるのは4つの最適化手法の組み合わせだ：

量子化（Quantization）：モデルの重みの数値精度を下げてメモリ使用量を削減
バッチ処理（Batching）：複数のリクエストを並列処理してGPUの稼働率を最大化
モデルルーティング（Model Routing）：シンプルなクエリは小さく安価なモデルへ振り分け、重い計算資源を温存
KVキャッシュ（Key-Value Caching）：会話の中間計算結果を保存し、再計算を回避

インフラの専門家が「最大の経済的ドライバー」と指摘するのがKVキャッシュだ。コーディングアシスタントや自律エージェントのような長いコンテキストを扱うアプリケーションでは、会話の履歴全体をターンごとに再計算するのが従来の挙動だった。KVキャッシュはこの中間計算を保存することで、新しいトークンだけを処理すればよい状態を実現する。

問題の規模感を示す数字がある。100,000トークンのコンテキストウィンドウは最大40GBの高帯域メモリを消費する。GPUメモリが逼迫すると古いデータを退避させるため、高コストな再計算が発生する。このレイヤーを効率的に管理できるかどうかが、AIスケーリングのボトルネックになっている。

独自チップ「Jalapeño」——NVIDIAへの依存を分散する独自シリコン戦略

ソフトウェア最適化と並行して、OpenAIはハードウェア面でも動いている。同社はBroadcomおよびCelesticaと共同開発した独自の推論プロセッサ「Jalapeño」を公開した。

大規模言語モデルの実行に特化して設計されたこのチップは、初期設計から量産まで9ヶ月という短期間で完成している。開発にはOpenAI自身のAIツールが活用されたという。

クラウド各社が独自シリコンを推進する流れは業界全体のトレンドでもある。Googleは機械学習ワークロード向けにTPU（Tensor Processing Unit）を長年展開し、AmazonはAWS向けに学習用のTrainiumと推論用のInferentiaを開発・投入している。こうした動きと同様に、OpenAIも汎用GPUに頼り続けるモデルから脱却し、推論ワークロードの特性に最適化された専用シリコンを持つことでコスト構造を自社でコントロールしようとしている。

NVIDIAのGPUは依然として学習フェーズや高度な推論タスクにおいて中心的な役割を担うが、Jalapeñoのような推論特化チップを組み合わせることで、ワークロードの性質に応じてハードウェアを使い分ける「依存の分散」が可能になる。特定ベンダーへの集中リスクを下げながら、調達コストの交渉力を高める狙いもあると考えられる。

API料金への反映は不透明——効率化と需要爆発のせめぎ合い

これらの内部効率化はOpenAIのインフラコストを大幅に改善するが、その恩恵がそのままAPI料金の値下げに直結するかどうかは現時点では不明だ。4つの最適化手法やJalapeñoの導入はあくまでサプライサイドの改善であり、APIの開発者は現在、フラット料金ではなくトークン量に応じた変動課金で利用しているため、料金体系の見直しには別途の経営判断が必要になる。

また、業界が24時間365日稼働する自律エージェントへとシフトするにつれ、トークン需要は指数的に拡大する見込みだ。効率化によって浮いたキャパシティが、増大する需要にそのまま飲み込まれる構図も十分ありうる。効率化による恩恵がそのまま利益あるいは価格還元に残るかは、需要増との競争になる。

推論需要がハードウェアの供給増加ペースを上回り続ける中、AIの持続可能性はより多くのコンピューティングリソースを購入することではなく、アルゴリズムの効率化とメモリアーキテクチャの改善によって決まる——そうした現実を今回の発表は改めて示している。

詳細はOpenAI Slashes AI Inference Costs by Half in Major Shift in Infrastructure Economics: Reportを参照していただきたい。