2月6日、OpenAIが「GPT-5.3-Codex」をリリースした。
この記事では、これまでで最も有能なエージェント型コーディングモデルである「GPT-5.3-Codex」について詳しく紹介する。
自己を進化させるモデルの誕生
OpenAIは、Codexの可能性をさらに引き出す新モデル「GPT-5.3-Codex」を発表した。本モデルは、GPT-5.2-Codexの最先端コーディング性能と、GPT-5.2の推論および専門知識を統合したものであり、 処理速度も25%向上している。 これにより、リサーチ、ツールの使用、複雑な実行を伴う長期的なタスクへの対応が可能となった。
驚くべきことに、GPT-5.3-Codexは 「自分で自分を構築した」 初のモデルである(より正確には、自身の構築において重要な役割を果たした)。Codexチームは初期バージョンを用い、自身のトレーニングのデバッグやデプロイの管理、テスト結果の診断を行った。チームは、Codexが自らの開発をどれほど加速させたかについて、大きな衝撃を受けたと述べている。
ベンチマークによる性能の実証
GPT-5.3-Codexは、単なるコードの記述やレビューを超え、専門家がコンピュータ上で行うほぼすべての作業を代替できるエージェントへと進化した。これは以下のベンチマーク結果からも明らかである。
- SWE-Bench Pro: 従来のPython限定の評価に対し、4言語をカバーし、汚染耐性が高く業界に関連性の強いこのベンチマークでSOTA(最高水準)を達成。
- Terminal-Bench 2.0: コーディングエージェントに必要なターミナル操作スキルにおいて、過去の記録を大幅に更新。
- OSWorld: 視覚的なデスクトップ環境での生産性タスクにおいて、人間(約72%)に近い強力な能力を実証。


自律的なウェブ開発と審美性の向上
本モデルは、数日間にわたって自律的に反復試行を行い、複雑なゲームやアプリをゼロから構築する能力を持つ。テストとして、以前のCodexアプリローンチ時のレースゲームのバージョン2と、ダイビングゲームの制作を指示したところ、モデルは「バグを直して」「ゲームを改善して」といった汎用的なプロンプトに基づき、数百万トークンに及ぶ自律的な改善を繰り返した。

GPT-5.3-Codexを用いて作られたゲーム。こちらからプレイできる
また、日常的なウェブサイト制作においても、ユーザーの意図をより深く理解するようになっている。曖昧な指示に対しても、以下のような洗練されたデフォルト設定を自動で適用する。
- 例: ランディングページ制作において、年次プランの割引を単なる合計額の提示ではなく、月額換算の割引価格として表示する。
- 例: 1つではなく3つの異なる引用を含む、自動遷移式の証言用カルーセルを作成する。
プロンプト例:
Build a landing page for Quiet KPI a founder friendly weekly metric digest. Aesthetic is soft SaaS, glassy cards, lavender to blue gradient, subtle blur. Sections, hero with email capture, sample report cards grid, integrations row, testimonial carousel, pricing toggle monthly yearly, FAQ, footer.
- Typeface Satoshi or similar geometric sans.
- Buttons soft corners, 14px radius, strong focus states.
- Add one tasteful scroll based reveal.
日本語参考訳:
起業家に親しみやすい週次メトリクス要約サービス「Quiet KPI」のランディングページを作成せよ。 デザイン:ソフトなSaaS系、グラスモーフィズムを用いたカード、ラベンダーからブルーへのグラデーション、繊細なぼかし効果。 構成要素:メールキャプチャ付きのヒーローセクション、サンプルレポートのカードグリッド、連携ツール一覧、ユーザーの声(カルーセル形式)、月払い/年払いの価格切り替えトグル、FAQ、フッター。
フォント:Satoshi、または類似のジオメトリック・サンセリフ体を使用。
ボタン:角丸(14px)、フォーカス時の状態を強調すること。
演出:洗練されたスクロール追従型の表示エフェクトを1つ追加せよ。
実際に生成されたランディングページ:
ソフトウェアライフサイクル全体への拡張
GPT-5.3-Codexの役割はコード生成に留まらない。デバッグ、デプロイ、モニタリング、PRD作成、コピー編集、ユーザーリサーチ、テスト、メトリクス分析など、ソフトウェア開発の全工程をサポートする。そのエージェント能力は、スライド資料の作成やスプレッドシートでのデータ分析といった、幅広い知的労働(GDPvalで測定される44の職業タスク)にまで及ぶ。
GPT-5.3-Codexが作成した財務アドバイススライド:

インタラクティブな共同作業と安全性
モデルの進化に伴い、人間がいかに容易にエージェントを指揮・監督できるかが重要となっている。Codexアプリでは、作業の進行状況や重要な決定事項をリアルタイムで対話しながら確認でき、ユーザーは結果を待つだけでなく、途中で質問や軌道修正を行うことが可能だ。
また、サイバーセキュリティ分野においても「高い能力(High capability)」と分類される初のモデルとなり、脆弱性の特定に向けた直接的なトレーニングが行われた。これに伴い、安全な利用を支援するための「Trusted Access for Cyber」プログラムや、オープンソースプロジェクト向けの無料コードスキャン提供など、包括的な安全対策も同時に展開されている。
GPT-5.3-Codexは現在、有料プランのChatGPTユーザー向けに、アプリ、CLI、IDE拡張機能、ウェブで利用可能だ。NVIDIA GB200 NVL72システムによって支えられたこのモデルは、単なる「コーディング助手」から、コンピュータ上のあらゆる作業を完遂する「汎用的な協力者」へと進化を遂げたと言える。
詳細はIntroducing GPT-5.3-Codexを参照していただきたい。