4月15日、OpenAI Blogで「APIにGPT‑4.1を導入 (Introducing GPT‑4.1 in the API)」と題した記事が公開された。この記事では、GPT‑4.1ファミリー(GPT‑4.1、GPT‑4.1 mini、GPT‑4.1 nano)のAPI提供開始と、それに伴う性能・コスト面での大幅な改善について詳しく紹介されている。

以下に、その内容を簡潔にまとめて紹介する。
GPT‑4.1ファミリーの概要
GPT‑4.1は、従来のGPT‑4oを上回る知能評価スコアを示しながら、推論レイテンシをほぼ半減させ、コストを最大83 %削減した新モデル群である。特に小型版のGPT‑4.1 miniは、GPT‑4oと同等以上の精度を保ったまま、コストと遅延を大幅に抑えている。
GPT-4.1 は、次のようなベンチマークにおいて優れた成績を叩き出している。
- コーディング : GPT-4.1 は SWE-bench Verifiedでで54.6% のスコアを獲得し、GPT-4o と比較して 21.4% の絶対値向上、GPT-4.5 と比較して 26.6% の絶対値向上を実現しており、コーディングの主要モデルとなっている。
- 指示に正確に従う : 指示に従う能力を測るベンチマークであるOn ScaleのMultiChallenge におけるGPT-4.1のスコアは38.3%で、GPT-4oより10.5%の増加となった。
- 長いコンテキスト: マルチモーダルな長時間コンテキスト理解のベンチマークであるVideo- MMEにおいて、GPT-4.1は、長時間・字幕なしのカテゴリで72.0%のスコアを獲得し、GPT-4oと比較して6.7%の絶対値改善を達成した。
nanoモデルの特長
最小構成のGPT‑4.1 nanoは、1 百万トークンという巨大なコンテキストウィンドウを備えつつ、 OpenAI史上最速・最安のモデル として位置付けられる。MMLU 80.1 %、GPQA 50.3 %、Aider polyglot coding 9.8 %というベンチマーク結果は、同サイズのGPT‑4o miniを上回る。低レイテンシが求められる分類や補完タスクに最適だ。
エージェント用途への適性
指示追従性と長文理解力の向上により、GPT‑4.1シリーズは「ユーザの代わりに自律的にタスクを遂行するエージェント」を支える基盤として有望視される。Responses APIなどのプリミティブと組み合わせることで、大規模文書の洞察抽出やソフトウェア開発支援、カスタマーサポート自動化といった現実的な業務シナリオでの信頼性が高まる。citeturn0search0
提供形態と今後
GPT‑4.1ファミリーはAPI専用モデルとして提供される。一方、ChatGPTでは指示追従やコーディング能力の改良が順次GPT‑4oへ反映されており、今後も両者の強みを取り込む形でアップデートが続く見込みだ。
またGPT‑4.1の登場に伴い、API版GPT‑4.5 Previewは2025年7月14日に停止予定である。GPT‑4.1は同等以上の性能をより低コストで提供するため、開発者には3 か月の移行期間が設けられている。
詳細はIntroducing GPT‑4.1 in the APIを参照していただきたい。