「ChatGPT Proは1つ」が崩れる — OpenAIの論文にGPT-5.6 Proの3バリアントが記載、用途別に最高ティアを選ぶ時代が来るか

7月1日、The Decoderが「OpenAI paper reveals three GPT-5.6 Pro models, breaking with single top-tier strategy」と題した記事を公開した。OpenAIがゲノミクス研究向けに発表した論文の結果テーブルに、未発表の「GPT-5.6 Pro」3バリアントの名称が記載されていたことが判明した。「Proモデルは常に1つ」というこれまでの前提を揺るがす発見だ。

「Proモデルは1つ」という前提が崩れる

OpenAIは6月末、GPT-5.6世代を正式に発表した。構成は3モデルに分かれており、最難タスク向けのSol、高ボリュームのビジネス用途向けのTerra、高速・低コストな日常用途向けのLunaとなっている。ただし、このときProバリアントの発表はなかった。

ところが、OpenAIがゲノミクスベンチマークに関する論文を新たに公開したところ、その結果テーブルに「GPT-5.6 Luna Pro」「Terra Pro」「Sol Pro」という行が存在することが判明した。それぞれ「Pro (Extended)」実行として記載されている。

ChatGPT Proはこれまで「最高性能の単一モデル」として機能してきた。ChatGPT Proが月額200ドルで登場して以来、Proといえば「他のすべてより1段上」という位置づけだった。論文が示す構成はその構造を根本から変えるものだ。

なぜAIモデルをゲノミクスで評価するのか

今回の発見の舞台となったのは、ゲノミクス分野に特化したベンチマーク評価だ。「なぜAIをゲノミクスで評価するのか」と疑問を持つ読者もいるかもしれない。

ゲノミクス（genomics）とは、生物のゲノム全体を対象に塩基配列・遺伝子機能・変異などを解析する学問領域だ。このタスクには、長大なデータを扱う多段階の論理推論・数値処理・専門知識の統合が要求される。つまり、汎用LLMの「真の実力」を測る難問として機能する。ChatGPTなどの汎用AIをゲノミクスで評価することは、医療・創薬への実用性検証であると同時に、推論能力の限界を引き出す負荷試験としても意味を持つ。近年、こうした専門ドメインでのLLM評価が研究コミュニティで活発化しており、今回の論文もその流れに位置づけられる。

ベンチマーク上の数字

論文中のベンチマークは129タスクのフルスイートで測定されており、パス率（多段階の分析をエラーなく完遂し、正解にたどり着く割合）で評価されている。

テスト対象60モデルの中でトップに立ったのはSol Proで、パス率は**31.5%**。次点のClaude Opus 4.8（16.0%）を大きく引き離しており、標準のSol（28.7%）も上回っている。

Proバリアントへの切り替えによる性能向上幅は、ベースティアによって異なる。数値を整理すると以下のとおりだ。

Luna Pro：標準版から**+7ポイント**（3バリアント中で最大の上昇幅）
Terra Pro：パス率**28.5%**に到達し、標準Sol（28.7%）とほぼ同等
Sol Pro：標準版から**+約3ポイント**で全モデル最高の31.5%

「Proにすれば均一に上がる」ではなく、ベースが低いモデルほど向上幅が大きい傾向が読み取れる。LunaがProになることで+7ポイントと最も大きく伸び、すでに高い水準にあるSolはProでも+3ポイント程度の上乗せにとどまっている。

特に注目すべき点は「Terra Pro ≒ 標準Sol」という関係だ。高ボリューム向けのProバリアントが、最上位フラグシップの標準版と肩を並べることを意味する。用途によっては「SolよりTerra Proの方がコスト効率が高い」という選択肢が生まれる可能性を示唆している。

見えていない数字

標準GPTモデルについては、論文内でトークン使用量（計算コストの代替指標）が報告されている。例えばSolを最高設定で動かした場合、平均約33,200トークンだ。

一方、Proバリアントの実行分についてはこの数値が存在しない。論文の著者は「比較可能なトークン集計が利用できなかった」と説明しているが、OpenAIが意図的に非開示にしている可能性が高い。Pro実行のコスト構造を外部に見せたくない、という判断は自然だ。

この不透明さは、仮にProバリアントが製品化された際の価格設定にも関わってくる。3バリアントそれぞれの計算コストが異なれば、Luna Pro・Terra Pro・Sol Proで料金体系を分けることも理論上は考えられる。

実際にリリースされるかは不明

今回の3バリアント構成は、あくまでベンチマーク論文の結果テーブルに名称が現れているに過ぎない。これらがChatGPTのサービスとして実際に提供されるかどうかは、論文からは読み取れない。

OpenAIがゲノミクス研究に協力する形で内部評価を実施したうえで論文に掲載した、という経緯の可能性もある。研究用途での評価と、製品としての公開は必ずしも連動しない。

ただし、もし実現すれば、ユーザーはProの中でも「速さ」「スループット」「最大推論性能」を用途に応じて選択できるようになる。「最高ティアは常に1つ」という設計思想からの明確な路線変更であり、モデル選択の複雑さが増す一方で、用途最適化の余地も広がる構造転換といえる。

詳細はOpenAI paper reveals three GPT-5.6 Pro models, breaking with single top-tier strategyを参照していただきたい。