4月17日、OpenAI o3とo4‑miniが発表された。
OpenAI o3 は、コーディング・数学・科学・視覚認識をはじめとする複数分野のベンチマークで既存モデルを大きく上回り、 同社が「これまでで最も高い推論力」と評価する 大型モデルだ。一方の o4‑mini は推論特化の軽量設計を採用し、計算コストを抑えながらも AIME や Codeforces などでモデルサイズを超えるスコアを示した。
両モデルは ChatGPT 上でフルツールアクセス(Web 検索、Python 実行、ファイル解析、画像生成など)を自己判断で駆使できるよう訓練されており、 複合的な質問に対しても 1 分程度で具体的かつ整形式の回答を生成するという。
具体的な性能向上
o3/o4‑mini は従来モデルとの比較において、Codeforces や SWE‑bench といった実務系ベンチマークに加え、MMMU(大学レベル視覚問題)や GPQA(博士課程レベル科学問題)などでも SOTA を更新した。
分野 | 指標 | o1 | o3 | o4‑mini | 備考 |
---|---|---|---|---|---|
コーディング | Codeforces ELO | 1891 | 2706 | 2719 | o3 はターミナル併用 |
数学 | AIME 2025 (%) | 79.2 | 88.9 | 92.7 | |
視覚推論 | MMMU (%) | 71.8 | 86.8 | 84.3 | |
科学 | GPQA Diamond (%) | 78.0 | 83.3 | 81.4 | no‑tools 比較 |
特に注目されるのは、画像を含むマルチモーダル入力を直列的な推論チェーンに取り込める点だ。ぼやけた写真や反転図でも解析可能で、必要に応じて回転・ズームなどの前処理を自発的に行う。これにより MMMU や MathVista といった視覚ベンチマークで大幅な精度向上を達成した。
大規模強化学習のスケーリング効果
OpenAI は GPT‑シリーズの事前学習で観測された 「思考時間を増やすほど性能が伸びる」という傾向が、強化学習(RL)工程でも成立する ことを確認した。訓練および推論の双方で計算量を一桁拡大しても、コスト対性能が右肩上がりで伸びる点が示されている。
画像を用いた新しい推論体験
このモデルでは新たに、 「画像を元に思考する」 ことが可能になった。
ユーザーが手書きの数式やホワイトボード写真をアップロードすると、モデルは画像内の情報を読み取りつつ Python を呼び出して計算やグラフ生成を行い、テキストと視覚の両面から解説を提示する。こうしたツール連携は、複数ステップの検索・計算・説明を自律的に連鎖させる「エージェント的推論」を実現している。
安全性の再設計
能力向上に合わせて安全面も刷新された。バイオリスク、マルウェア生成、ジェイルブレイクなどへの耐性を底上げし、内部評価では 99 % 以上の危険な会話を検知・遮断できたという。OpenAI Preparedness Framework に基づく三つの重点領域(生物・化学、サイバーセキュリティ、AI自己改善)でも、いずれも「High」閾値を下回る水準を維持したと報告されている。
Codex CLI と開発者支援
ターミナルからローカルファイルとモデル推論を統合する Codex CLI が OSS として公開された。スクリーンショットやラフスケッチを渡してコードを操作でき、同社は最大 100 万ドル相当の API クレジット助成プログラムも開始している。
提供プランの変更
ChatGPT Plus/Pro/Team では従来の o1、o3‑mini が置き換わり、本日から o3 と o4‑mini が選択可能となった(レート上限は据え置き)。無償利用者でも「Think」モード経由で o4‑mini を試せる。
OpenAI は o‑シリーズの推論力と GPT‑シリーズの自然対話・ツール統合を一本化し、より柔軟でエージェント的な次世代モデルへと進化させた。数週間以内にはフルツール対応の o3‑pro をリリース予定とも予告している。
詳細はIntroducing OpenAI o3 and o4-miniを参照していただきたい。