GPT-5.2-Codex登場、長期・大規模タスク向けの改善とサイバーセキュリティ能力の強化

12月19日、OpenAIが「Introducing GPT-5.2-Codex」と題した記事を公開した。この記事では、複雑で実務的なソフトウェア開発に向けて最適化されたエージェント型コーディングモデルGPT-5.2-Codexの狙いと、長期タスク・大規模変更・Windows対応・サイバーセキュリティ能力の強化、そして段階的な提供方針について詳しく紹介されている。

以下に、その内容を紹介する。

GPT-5.2-Codexとは何か

GPT-5.2-Codexは、GPT-5.2をベースに「Codex上でのエージェント型コーディング」に合わせて追加で最適化したモデルだとされる。狙いは、現実の大規模リポジトリで発生する長丁場の作業（計画→実装→失敗→再計画→修正…）を、コンテキストを失いにくい形で粘り強く進めることである。

記事では具体的な強化点として、次のような方向性が挙げられている。

長期タスク向けの改善：context compaction（文脈の圧縮）により、長時間の作業でもコンテキストを保持しやすくする
大規模変更の強化：リファクタリングやマイグレーションのような大きな差分を伴う作業で性能向上
Windows環境での改善：ネイティブWindows環境でのエージェント型作業の信頼性向上
サイバーセキュリティ能力の強化：防御側の調査・検証・修正を加速し得る能力の向上

ベンチマーク結果

記事では、SWE-Bench ProとTerminal-Bench 2.0で最先端（state-of-the-art）の成績を達成した、と述べられている。

SWE-Bench Pro：コードリポジトリが与えられ、実務的な課題を解決するパッチ生成が求められる
Terminal-Bench 2.0：実際のターミナル環境で、コンパイル、学習、サーバーセットアップ等のタスクを行う“エージェント性”を測る

ここでの含意は、「単発のコード補完」よりも、「ツールを呼び、環境を立ち上げ、状況を見ながら手戻り込みで進める」能力に重心がある、という点にある。

「長い作業で迷子にならない」ための仕掛け

GPT-5.2-Codexは、長文コンテキスト理解やツール呼び出しの信頼性の向上により、長時間作業の「相棒」としての堅牢性を上げたとされる。言い換えると、巨大リポジトリでの長いセッションにおいて、計画変更や失敗があっても、文脈を維持して反復し続けることを狙っている。

「視覚性能」も強化

またGPT-5.2-Codexは、「視覚性能」も強化された。スクリーンショットやチャート、UIデザインなどをより正確に読み取り、設計モックからプロトタイプを起こす用途を想定している。

（記事に含まれる画像）

サイバーセキュリティ能力の強化

モデル性能の向上がサイバーセキュリティ領域でも大幅な改善をもたらすという。

例としてReact Server Componentsに関する脆弱性開示（2025年12月11日）を挙げ、AIが防御的セキュリティ作業を加速し得ることを説明している。

ここで焦点になっているのは、ゼロショットでの解析がうまくいかない場面から、反復的なプロンプト、さらに“標準的な防御ワークフロー”（ローカル環境構築、攻撃面の推論、fuzzingによる異常入力の探索）へ移り、想定外の挙動を手がかりに追加の脆弱性発見につながった、というプロセスである。つまり「一発回答」ではなく、専門家の誘導の下で、環境を回しながら探索する色が濃い。

（記事に含まれるフロー図）

サイバーセキュリティ能力の向上については、同時に悪用可能性も高めてしまう可能性を秘めているため、GPT-5.2-Codexは以下のポリシーを貫くとしている。

防御側（開発者・セキュリティ研究者）が、脆弱性の発見・検証・修正を加速できること
同じ能力が攻撃側に悪用されるリスク（dual-use）を抑えること

そのために、一般提供（有料ChatGPTのCodex）と並行して、招待制で審査済みの専門家・組織に、より“防御目的に適した形”で能力を提供するパイロットを用意し、アクセス制御・安全策・コミュニティ協力をセットで運用する方針が示されている。

詳細はIntroducing GPT-5.2-Codexを参照していただきたい。