AIバグ発見ツール「Mythos」のFirefox成果を検証 — 271件発見の実態とハイプの真偽

4月24日、セキュリティ研究者が「A quick look at Mythos run on Firefox: too much hype?」と題した記事を公開した。

Anthropicが開発したAI脆弱性発見ツール「Mythos」がFirefox 150で271件のバグを発見したという発表について、その実態を技術的に検証した内容だ。AIによる脆弱性発見が「ゼロデイの終焉」をもたらすという華々しい発表の裏で、実際に何が起きていたのかを冷静に分析している。

「271件の脆弱性」という数字の実態

Mozillaは「The zero-days are numbered（ゼロデイの時代は終わった）」というタイトルでMythosの成果を発表したが、記事の著者は公開された証拠がこの主張を支持していないと指摘する。

Firefox 150のセキュリティアドバイザリを詳しく調べると、271件という数字の内訳は単純ではない。アドバイザリには1件、55件、154件、107件のバグを含む集約されたCVEエントリが混在しており、これらだけで計317件となる。さらにFirefox 150だけでなくThunderbirdやESRリリースも含まれている。

Mozilla の271という数字、Bugzilla のバグID、アドバイザリのCVE、個別のコミットは同じ単位ではないのだ。

著者は分析ツールを作成し、FIREFOX_BETA_149_ENDからFIREFOX_BETA_150_ENDまでのタグ間で統計を取得した。結果は6,115件のコミット、3,209件のバグID、301件のCVE関連バグ（Mythos以外も含む）、総計3,438,679行の変更という規模だった。

AIが得意なのは「エクスプロイト発見」か「品質向上」か

記事で最も興味深い指摘は、防御者と攻撃者で「脆弱性」の定義が異なるという点だ。

防御者の視点では、メモリ安全性の問題、ライフタイムの間違い、競合状態などは、攻撃者が悪用する前に除去したいパターンそのものだ。バグが独立して悪用可能でなくても、安全性マージンを減少させる可能性がある。

攻撃者の視点では、基準はより高い。メモリ制御、型の混同、特権境界の越境、サンドボックス回避など、実質的にエクスプロイテーションを進歩させる場合のみが真に「興味深い」バグとなる。

この基準で見ると、公開された修正の多くは「明らかなエクスプロイトの金鉱というより、堅牢化とバグ債務の削減」に見えると著者は分析している。

Mythosの真価と限界

Firefox 150のデータから最も好意的に読み取れるのは、Mythosが大規模に疑わしいパターンを浮上させることに非常に優れているということだ。Firefoxサイズのコードベース全体でクリーンアップバグ、ライフタイム危険性、API誤用を見つけることができるモデルは、発見の一部だけが直接悪用可能であっても防御チームには有用だ。

ただし、他のLLMと比較した場合の優位性は明確ではない。例えばGoogle Big Sleepは、すでにMythosよりもはるかに関連性が高い可能性があるが、劇的な発表は行っていない。

興味深いことに、あるセキュリティチームは公式に述べているが、彼らのRCEとサンドボックス回避チェーンはリリース後もまだ有効だった。これは「多くの修正が適用された」ことと「攻撃的問題が解決された」ことは同じ意味ではないという重要な指摘だ。

「ハイプ」への警鐘

記事の著者の現在の見解は以下の通りだ：

防御アシスタントとして：Mythosは信頼できる
劇的な攻撃的ブレークスルーの証拠として：Firefoxのケースは依然として弱い
AI セキュリティ発表の常として：最も興味深い部分は、我々が見ることのできない運用詳細に隠されている

AI技術の急速な発展により、脆弱性発見の自動化に対する期待が高まっているが、現実的な評価が重要だ。Mythosは確実に有用なツールだが、「ゼロデイの終焉」という劇的な主張には慎重な検証が必要であることを、この分析は示している。

記事では「ハイプ投稿に注意し、彼らが推し進めたい物語に騙されないように」と警告しており、AI セキュリティ分野の健全な発展のために重要な視点を提供している。

詳細はA quick look at Mythos run on Firefox: too much hype?を参照していただきたい。