8月8日、OpenAIが「Introducing GPT‑5 for developers」と題した記事を公開した。この記事では、最新モデル「GPT‑5」が開発者向けに提供開始されたこと、そしてその性能や新機能について詳しく紹介されている。
以下に、その内容を紹介する。
GPT-5、開発者向けに正式リリース
OpenAIは、同社のAPIプラットフォームにおいて、最新のAIモデル「GPT‑5」の提供を開始した。これは、これまでで最も高性能なコーディングおよびエージェントタスク向けモデルであり、各種ベンチマークで最先端の成績を収めている。
たとえば、SWE-bench Verifiedでは74.9%、Aider polyglotでは88%という高スコアを記録しており、コードの生成・編集・バグ修正・大規模なコードベースの理解といった作業において非常に高い精度と信頼性を示している。
コーディング性能の大幅向上
GPT-5は、以下の点において先行モデルであるo3を大きく上回っている。
- SWE-bench Verified: 現実的なソフトウェア開発タスクに対する評価で74.9%(o3は69.1%)を達成。さらに、同様の精度を保ちつつ22%少ない出力トークン、45%少ないツール呼び出しで処理。
- Aider polyglot: コード編集のベンチマークで88%の正答率。o3と比較してエラー率を1/3に削減。
- フロントエンド開発: GPT-5は、内部評価でo3を70%の割合で上回っており、UI/UXの美的センスとコード品質の両面で高く評価されている。
コード編集の評価であるAider polyglotでは、GPT-5は88%という新記録を樹立し、o3と比較してエラー率が3分の1に減少
また、ユーザーからの評価も高い。たとえばCursorの共同創業者は「 これまで使った中で最も賢いモデル 」と述べ、ツールの呼び出し、複雑なタスクへの対応力、ステアラビリティ(操作のしやすさ)を高く評価している。
エージェントタスクにおける進化
GPT-5は、 長時間にわたるツール連携を含む複雑な作業を正確に遂行する 能力においても優れている。以下はその一例である。
- τ2-bench telecom: ツールの連携と指示の解釈を評価するベンチマークで96.7%を達成(これまでの最高スコアは49%)。
- COLLIEやScale MultiChallenge: 高度な指示理解と複数ターンの会話で高得点を記録。
- OpenAI-MRCR: 長文コンテキストから情報を正確に検索・解釈するタスクでもGPT-4やo3を上回る。
さらに、エージェントとしての振る舞いにも改善が見られ、ツール使用時の中間報告(preamble)や、ツール呼び出しの連続実行/並列実行といった複雑なフローを自律的にこなすようになっている。
開発者向けの新機能
GPT‑5では、APIレベルでの制御性が大きく向上している。主な追加機能は以下のとおり。
verbosity
パラメータ: 出力の長さをlow
(簡潔)~high
(詳細)で制御可能。reasoning_effort
パラメータ: 推論の深さをminimal
からhigh
まで選択可能。- カスタムツール対応: JSONの代わりにプレーンテキストでツールを呼び出せる「custom tools」を導入。正規表現やコンテキストフリー文法による制約も可能。
特にcustom toolsの導入により、長文・複雑な構造の出力時に発生しがちだったJSONの構文エラーを回避できるようになった点は、開発者にとって大きなメリットといえる。
提供サイズと価格
GPT‑5は以下の3つのモデルサイズで提供される。
gpt-5
: 高性能モデル($1.25/1M input tokens、$10/1M output tokens)gpt-5-mini
: 中規模モデル($0.25/1M、$2/1M)gpt-5-nano
: 軽量モデル($0.05/1M、$0.4/1M)
すべてのモデルが reasoning_effort
と verbosity
、カスタムツール、ツールの並列実行、ストリーミング出力、Batch APIなどに対応している。また、非推論モデルは gpt-5-chat-latest
としてAPIでも利用可能である。
現場からの評価
以下は、実際にGPT‑5を利用したユーザーからの評価の一部である。
「GPT-5は、これまで使った中で最も賢いコーディングモデルだ。難解なバグの特定から、複数ステップにわたる長時間のビルドまで対応できる。PRの設計から、最終的なビルド完了まで、日常的に活用している。」
— Cursor CEO Michael Truell
「調整を一切加えずとも、我々の社内ベンチマークで最高性能を記録した。ステアラビリティと安定性が大きく向上しており、開発環境に即座に投入できる。」
— Manus Chief Scientist Yichao “Peak” Ji
今後への展望
GPT‑5は、Microsoft 365 Copilot、GitHub Copilot、Azure AI Foundryなど、Microsoft製品群にも展開される。長文コンテキスト、ツール連携、事実性、安全性といった全領域で改良が加えられており、開発者向けAIモデルとして新たな標準となる存在である。
詳細はIntroducing GPT‑5 for developersを参照していただきたい。