AIの「本当の実力」はベンチマークで測れていない — 英国AI安全機関が示した、計算リソースを増やすほど能力が伸び続けるという不都合な事実
DRANK

7月4日、The Decoderが「UK's AI Security Institute finds standard benchmarks systematically underestimate what AI agents can actually do」と題した記事を公開した。英国のAI安全機関(AISI:AI Security Institute、旧称AI Safety Institute)が「標準的なベンチマークはAIエージェントの実際の能力を系統的に過小評価している」と指摘した研究報告について詳しく紹介されている。AISIは、もともと「UK AI Safety Institute」として設立されたが、2025年に「UK AI Security Institute」へと改称・再編された英国政府機関だ。先端AIシステムの安全性評価を主たる任務とし、いわゆるフロンティアモデル(GPT-5やClaude Opus 4といった、開発最前線にある最大規模・最高性能のAIモデル群を指す業界用語)の能力測定に関する研究を継続的に公表している。今回の報告も、その一環として位置づけられる。

by @tf_official
Related Topics: AI Machine Learning Security