12月19日、OpenAIが「Introducing GPT-5.2-Codex」と題した記事を公開した。この記事では、複雑で実務的なソフトウェア開発に向けて最適化されたエージェント型コーディングモデルGPT-5.2-Codexの狙いと、長期タスク・大規模変更・Windows対応・サイバーセキュリティ能力の強化、そして段階的な提供方針について詳しく紹介されている。
以下に、その内容を紹介する。
GPT-5.2-Codexとは何か
GPT-5.2-Codexは、GPT-5.2をベースに「Codex上でのエージェント型コーディング」に合わせて追加で最適化したモデルだとされる。狙いは、現実の大規模リポジトリで発生する長丁場の作業(計画→実装→失敗→再計画→修正…)を、コンテキストを失いにくい形で粘り強く進めることである。
記事では具体的な強化点として、次のような方向性が挙げられている。
- 長期タスク向けの改善:context compaction(文脈の圧縮)により、長時間の作業でもコンテキストを保持しやすくする
- 大規模変更の強化:リファクタリングやマイグレーションのような大きな差分を伴う作業で性能向上
- Windows環境での改善:ネイティブWindows環境でのエージェント型作業の信頼性向上
- サイバーセキュリティ能力の強化:防御側の調査・検証・修正を加速し得る能力の向上
ベンチマーク結果
記事では、SWE-Bench ProとTerminal-Bench 2.0で最先端(state-of-the-art)の成績を達成した、と述べられている。
- SWE-Bench Pro:コードリポジトリが与えられ、実務的な課題を解決するパッチ生成が求められる
- Terminal-Bench 2.0:実際のターミナル環境で、コンパイル、学習、サーバーセットアップ等のタスクを行う“エージェント性”を測る
ここでの含意は、「単発のコード補完」よりも、「ツールを呼び、環境を立ち上げ、状況を見ながら手戻り込みで進める」能力に重心がある、という点にある。
「長い作業で迷子にならない」ための仕掛け
GPT-5.2-Codexは、長文コンテキスト理解やツール呼び出しの信頼性の向上により、長時間作業の「相棒」としての堅牢性を上げたとされる。言い換えると、巨大リポジトリでの長いセッションにおいて、計画変更や失敗があっても、文脈を維持して反復し続けることを狙っている。
「視覚性能」も強化
またGPT-5.2-Codexは、「視覚性能」も強化された。スクリーンショットやチャート、UIデザインなどをより正確に読み取り、設計モックからプロトタイプを起こす用途を想定している。
(記事に含まれる画像)

サイバーセキュリティ能力の強化
モデル性能の向上がサイバーセキュリティ領域でも大幅な改善をもたらすという。
例としてReact Server Componentsに関する脆弱性開示(2025年12月11日)を挙げ、AIが防御的セキュリティ作業を加速し得ることを説明している。
ここで焦点になっているのは、ゼロショットでの解析がうまくいかない場面から、反復的なプロンプト、さらに“標準的な防御ワークフロー”(ローカル環境構築、攻撃面の推論、fuzzingによる異常入力の探索)へ移り、想定外の挙動を手がかりに追加の脆弱性発見につながった、というプロセスである。つまり「一発回答」ではなく、専門家の誘導の下で、環境を回しながら探索する色が濃い。
(記事に含まれるフロー図)
サイバーセキュリティ能力の向上については、同時に悪用可能性も高めてしまう可能性を秘めているため、GPT-5.2-Codexは以下のポリシーを貫くとしている。
- 防御側(開発者・セキュリティ研究者)が、脆弱性の発見・検証・修正を加速できること
- 同じ能力が攻撃側に悪用されるリスク(dual-use)を抑えること
そのために、一般提供(有料ChatGPTのCodex)と並行して、招待制で審査済みの専門家・組織に、より“防御目的に適した形”で能力を提供するパイロットを用意し、アクセス制御・安全策・コミュニティ協力をセットで運用する方針が示されている。
詳細はIntroducing GPT-5.2-Codexを参照していただきたい。