AnthropicのAI「Mythos」の脆弱性発見、既存モデルの成果だった？公式記録のタイムライン分析

4月21日、セキュリティ研究者が「FreeBSD CVE-2026-4747 Log Suggests Mythos is a Marketing Trick」と題した記事を公開した。

Anthropicが4月7日にローンチした最新AI「Claude Mythos Preview」の目玉機能とされるFreeBSD脆弱性の発見について、公式記録のタイムライン分析により疑問が浮上している。FreeBSDのセキュリティアドバイザリには、Mythosローンチの12日前にクレジットが記載されており、実際の発見者は以前のモデルだった可能性が指摘されている。

この問題は、急速に発展するAI業界において、企業による能力評価の透明性がどこまで確保されているかという重要な議論を提起している。

Mythosとは何か

Anthropicは、OpenAIの元研究者らが2021年に設立したAI安全性研究企業で、ChatGPTのライバルとされるClaudeシリーズを開発している。Claude Mythos Previewは、同社が「フロンティア専用の能力」を持つとして発表した最新モデルだ。

同社は、MythosがCVE-2026-4747というFreeBSDの重要な脆弱性を「完全自律的に特定し、悪用した」と発表し、AI安全性の文脈で大きな注目を集めていた。この種の「ゼロデイ脆弱性発見」は、AIが人間の専門家を超える能力を持つ象徴的な事例として業界で議論されてきた。

12日間のギャップが示すタイムラインの矛盾

問題となっているタイムラインは以下の通りだ：

2026年3月26日: FreeBSDがセキュリティアドバイザリを公開。クレジットには「Nicholas Carlini using Claude, Anthropic」と記載
2026年4月7日: AnthropicがMythos Previewをローンチし、この脆弱性発見を功績として発表

12日間のギャップがある上、アドバイザリには「Claude Mythos Preview」ではなく、単に「Claude」と記載されている。

さらに遡ると、2月5日にはAnthropicのフロンティア・レッドチームが論文で、Claude Opus 4.6がFreeBSDを含む500以上の脆弱性を検証したと報告していた。これは、実際の発見者が以前のモデルだったことを示唆している。

技術的な分析：発見は困難だったのか

CVE-2026-4747は、FreeBSDのRPCSEC_GSS（RPCセキュリティプロトコル）モジュールにおけるスタックバッファオーバーフロー脆弱性だ。svc_rpc_gss_validate()関数が、攻撃者制御可能な認証情報を128バイトのスタックバッファに長さチェックなしでコピーすることで発生する。

興味深いのは、この脆弱性の悪用が比較的容易だった点だ：

FreeBSD 14.xにはKASLR（カーネルアドレス空間配置のランダム化）がない
整数配列に対するスタックカナリア（バッファオーバーフロー検出機能）がない

現代のLinuxカーネルなら両方の緩和策があるが、FreeBSDには実装されていなかった。これにより、2000年代初頭のような古典的な攻撃手法が有効だった。

小型モデルでも検出可能だった現実

AISLEプロジェクトの検証では、8つのオープンウェイトモデル全てが同じ脆弱性を検出できることが判明した。これには36億パラメータのGPT-OSS-20b（コストは100万トークンあたり11セント）も含まれている。

第三者のCalif.ioのMAD Bugsプロジェクトでは、既に開示されたCVEに対してClaude Opus 4.6にエクスプロイト開発を依頼したところ、約4時間で2つの動作する攻撃コードを生成した。

これらの結果は、「前例のないフロンティア能力」として宣伝された脆弱性発見が、実際には既存の技術で十分達成可能だったことを示している。

Firefox 147評価との類似パターン

この構造は、以前のFirefox 147評価と同じパターンを示している：

Opus 4.6が実際にバグを発見
緩和策を削除した環境でテストを実施
結果をMythosの「前例のないフロンティア能力」として提示

どちらのケースも、以前のモデルがバグを発見し、プロダクションシステムの防御機能が欠如した環境で、小型モデルでも検出可能だった。

AI能力評価の透明性が問われる時代

AI企業による能力評価の信頼性は、AI安全性の議論、規制当局の判断、投資家の意思決定に直接影響する重要な問題だ。特に、AIがサイバーセキュリティ分野で人間を上回る能力を持つかどうかは、国家安全保障の観点からも注目されている。

FreeBSDアドバイザリのPGP署名は事後編集できないため、客観的な公式記録として機能している。この記録と企業の発表内容に齟齬がある場合、透明性の問題として議論されるべきだろう。

記事では、Anthropicに対して2つの可能性を指摘している：

Mythosが既にパッチされた脆弱性を再発見した：「前例のないフロンティア能力」の証明にならない
以前のモデルの発見を新製品に帰属させた：マーケティング上の誤表示

どちらの場合も、AI業界全体における正確な情報開示の重要性を浮き彫りにしている。技術の急速な発展とともに、企業による自己評価の客観性と検証可能性がより一層求められる時代になっている。

詳細はFreeBSD CVE-2026-4747 Log Suggests Mythos is a Marketing Trickを参照していただきたい。