AIの「本当の実力」はベンチマークで測れていない — 英国AI安全機関が示した、計算リソースを増やすほど能力が伸び続けるという不都合な事実

7月4日、The Decoderが「UK's AI Security Institute finds standard benchmarks systematically underestimate what AI agents can actually do」と題した記事を公開した。英国のAI安全機関（AISI：AI Security Institute、旧称AI Safety Institute）が「標準的なベンチマークはAIエージェントの実際の能力を系統的に過小評価している」と指摘した研究報告について詳しく紹介されている。

AISIは、もともと「UK AI Safety Institute」として設立されたが、2025年に「UK AI Security Institute」へと改称・再編された英国政府機関だ。先端AIシステムの安全性評価を主たる任務とし、いわゆるフロンティアモデル（GPT-5やClaude Opus 4といった、開発最前線にある最大規模・最高性能のAIモデル群を指す業界用語）の能力測定に関する研究を継続的に公表している。今回の報告も、その一環として位置づけられる。

「固定バジェットのスコア」は能力の下限しか示していない

AIエージェントの性能は、推論時に使えるコンピュート量（トークン数）に応じて上昇する曲線を描く。その曲線がまだ上昇途中の段階でカットオフを設けてしまえば、測定されたスコアは「その条件下での最大値」ではなく「最小値」に近い数字になる。

AISIは、この問題を実証するため、フロンティアモデル群を7つのベンチマーク・複数のトークン予算で体系的にテストした。

結果は明快だった。サイバーセキュリティタスクでは、約8%のタスクが1000万トークン超のバジェットでないと解けず、中には5000万トークンを要するものもあった。ソフトウェアエンジニアリングタスク（TerminalBench 2.0、SWE-Bench Pro）では、バジェットを100万から1000万トークンに増やすと成功率が約25%向上。数学・学術タスク（Humanity's Last Exam）では、500万トークンまでのバジェットで約22%の向上が見られた。

一方、医療タスクのベンチマーク「HealthBench」では全モデルが標準バジェット内でプラトーに達した。AISIによれば、追加コンピュートが効くのは「エージェント自身が結果を検証できるタスク」（コード実行、エクスプロイトのテストなど）であり、フィードバックが得られないタスクではほぼ効果がないという。

人間の作業時間がトークン消費量を予測する

もう一つ重要な発見がある。人間の専門家がタスクにかける時間と、エージェントのトークン消費量が冪乗則（power law、2つの量の間に「y = ax^b」の形の比例関係が成り立つ統計的法則）に従うという関係だ。

METRの211件のソフトウェアエンジニアリングタスクとAISIの78件のサイバータスクを分析した結果：

人間が1分で終わるタスク → エージェントは数千トークン
人間が1時間かかるタスク → 数百万トークン
人間が1週間かかるタスク → 数十億トークン

つまり、固定バジェットの評価では「長くて難しいタスク」が切り捨てられる。タスクを解けなかった原因が「モデルの能力不足」なのか「バジェット不足」なのかが区別できないわけだ。

AISIが具体例として挙げた「The Last Ones」というサイバータスクは、人間の専門家が約20時間かかる難問で、テストした全モデルが3000万トークン未満では解けなかった。

新世代モデルは「追加コンピュートの恩恵」がより大きい

新しいモデルほど、バジェット増加から得られる恩恵が大きいことも示された。能力曲線の変化は3つの軸で起きている：

Reach（到達範囲）：より難しいタスクが解けるようになる
Reliability（信頼性）：同じタスクをより高い確率で解ける
Efficiency（効率）：同じタスクに必要なトークンが減る

現行のフロンティアモデルの「タイムホライズン」（エージェントが人間の介入なしに自律的に対処できる連続作業時間の目安）は、250万トークンのバジェットで約40分だったが、5000万トークンでは約4時間に伸びた。フロンティア全体では、同じバジェット範囲で2時間から14時間に拡大している。

フロンティアの進歩速度は「測定バジェット」次第で変わる

AISIはこれまで、サイバータスクにおけるフロンティアモデルのタイムホライズンが約4.7ヶ月ごとに倍増していると推定していた（バジェット250万トークン固定で測定）。ところが5000万トークンで測定すると、倍増ペースは40〜50日に縮まる。

「倍増速度」はモデルの固有の進歩速度ではなく、評価バジェットの設定値に依存した数字だとAISIは指摘する。テスト対象モデルはGPT-5、GPT-5.5、Claude Opus 4.5/4.8、Sonnet 4.5など。

なお、10〜30%のタスクでは新しいモデルが旧モデルより低スコアになるケースもあった。進歩は一様ではない。

こうした事実は、「現在のベンチマーク結果でモデルの進歩速度を論じること自体、測定の前提が揺らいでいる」という問題を突きつけている。能力の天井を測っているつもりが、実際にはコスト制約による下限を測っているにすぎないのであれば、安全性評価の基準そのものを見直す必要が生じる。次のセクションで紹介するAISIの提案は、この問題への直接的な応答だ。

AISIが提唱する「最小情報バジェット」

AISIの結論はシンプルだ。

「能力を固定スコアではなくコンピュートに対する曲線として扱わない限り、より多くのリソースを投入した際にこれらのシステムが何をできるかに、我々は驚き続けることになる」

この問題への対応として、AISIは現在フロンティアモデルを複数の異なるバジェットでテストするアプローチを採用している。「最小情報バジェット（minimum informative budget）」という概念で、追加コンピュートでも性能が伸びなくなった時点のスコアのみを有効な結果とみなす設計だ。

トークン単価の低下が進めば、高バジェットのテストがより安価に実施できるようになる。そうなれば「今は高価すぎて届かない能力」が現実的なコストで引き出せるようになり、コンピュートを考慮した評価手法の重要性はさらに増す。

詳細はUK's AI Security Institute finds standard benchmarks systematically underestimate what AI agents can actually doを参照していただきたい。