7月1日、Matthias Bastianが「OpenAI reportedly cut response costs for guest ChatGPT users by more than half」と題した記事を公開した。OpenAIのエンジニアたちが推論コストを半減以上に削減することに成功したという報道だが、注目すべきはコスト削減そのものより、その先の問いだ——浮いたGPUリソースはどこへ向かうのか。AIインフラ競争が激化する中、この問いへの答えは業界の行方を読む上で重要な手がかりになる。
OpenAIが推論コストを半減以上に削減
The Informationの報道によると、OpenAIのエンジニアたちは今月初め、社内で推論コスト(既存のAIモデルを実行するためのコスト)を半減以上に削減したと同僚に報告した。この最適化はアカウントを持たないゲストユーザー向けのChatGPTに適用されており、そのユーザーへの応答に必要なNvidia GPUの台数はわずか数百台にまで減少したという。
ただし、削減前のGPU台数や、具体的にどのような技術が使われたかは明かされていない。また、ゲストユーザーはChatGPTの機能の一部しか利用できないため、この最適化がフル機能の製品にそのまま適用できるかどうかは不明だ。
なぜ今、推論コスト削減が焦点になるのか
OpenAIは2024年以降、急速なユーザー増加とモデルの高度化が重なり、推論インフラへの投資が膨らみ続けている。ChatGPTの月間アクティブユーザーは5億人を超えるとされており(※OpenAI公表値)、そのリクエストを捌くGPUクラスターの維持費は財務上の重要な変数だ。同社はMicrosoftからの大規模な資金調達や独自データセンター計画(Stargate)を通じてインフラ増強を進めているが、それと並行してソフトウェア・アルゴリズムレベルでのコスト圧縮も不可欠な課題となっている。
推論コスト(Inference Cost)とは、学習済みのAIモデルを実際にユーザーのリクエストに対して動かすためのコストを指す。モデルの学習コストとは異なり、サービスを継続的に提供するための運用コストの大部分を占める。モデルが高性能になるほど1リクエストあたりの計算量が増え、この推論コストが事業の収益性を左右する構造になっている。無料ユーザー・ゲストユーザーへの対応はそのまま利益を生まないため、コスト削減の優先度が特に高い領域といえる。
推論コスト圧縮は業界全体の競争になっている
このニュースはOpenAIだけの話ではない。DeepSeekも同時期に、推論リクエストを60〜85%高速化できる新しいオープンソース手法「dSPARK」を公開した。主要なAIラボがそれぞれ独自のアプローチで推論効率の改善を進めており、アルゴリズムの最適化、モデルの量子化・蒸留、専用ハードウェアとの協調設計など、複数の手法が競合・併用されている状況だ。
こうした流れは、AIサービスの競争軸が「モデルの性能」だけでなく「いかに安く・速く推論を提供できるか」にも広がっていることを示している。特にDeepSeekのアプローチは、比較的小規模なリソースで高い推論効率を実現するとして注目を集めており、OpenAIをはじめとする大手ラボへの間接的な圧力となっている。
浮いたGPUリソースはどこへ向かうのか
削減によって生まれたリソースの余裕が、そのままコスト削減・利益率向上に直結するとは限らない。記事では現実的な見方が示されている。データセンターの建設は依然として時間がかかるため、こうした効率改善はチップ需要を直接押し下げるというより、各ラボに「余裕」をもたらす性格のものになるとみられている。
言い換えれば、コスト削減=GPU購入量の減少とはならない。浮いたリソースは、より多くのユーザーへのサービス提供、より高性能なモデルの常時稼働、応答速度の改善、あるいは新機能のロールアウトへと再投資されるというのが現実的な見通しだ。AIインフラへの需要は、効率化によって抑制されるのではなく、効率化によって可能になった新たな用途によってむしろ拡大するという構図は、過去のクラウドコンピューティングや半導体の歴史とも重なる。
今回の報道が示すのは、OpenAIが単にコストを圧縮したという事実にとどまらない。推論効率の競争が本格化する中で、限られたGPUリソースをどう配分するかという戦略判断が、各社の競争力を左右する局面に入りつつあるということだ。
詳細はOpenAI reportedly cut response costs for guest ChatGPT users by more than halfを参照していただきたい。