7月1日、Anthropicが「Redeploying Claude Fable 5」と題した記事を公開した。6月12日に米国の輸出規制により一時停止されていたClaude Fable 5について、規制解除を受けてグローバル提供を再開したことを報告するとともに、今回の経緯を踏まえたセキュリティ対策の強化と、業界横断でジェイルブレークの深刻さを評価する共通フレームワークの策定に着手したことを明かしている。
今回の一件が示すのは、「AIモデルのセーフガードがバイパスされたとき、それがどの程度深刻なのかを業界として共通の言葉で語れない」という根本的な問題だ。Anthropicはその解決に向けて動き始めており、今回の記事はインシデントの事後報告にとどまらず、AI安全性の評価基準そのものを再定義しようとする提言書でもある。
発端:金曜日の夜に届いた輸出規制
事の発端は6月12日(金)、米国政府がClaude Fable 5(AnthropicのコーディングおよびエージェントAI特化の最新モデル)およびClaude Mythos 5(高性能推論特化モデル)に輸出規制を即日適用したことだ。リアルタイムでユーザーの国籍を確認する手段を持たなかったAnthropicは、全ユーザーへのアクセスを停止せざるを得なかった。
直接のきっかけはAmazonの研究者がFable 5のセーフガードをバイパスする手法を発見したという報告だった。その手法を用いると、モデルが複数のソフトウェア脆弱性を特定し、一件については実際にエクスプロイトコードを生成したとされた。
ただし、Anthropicがその後実施したテストでは、同じ脆弱性の特定はClaude Opus 4.8やGPT-5.5、Kimi K2.7など他の主要モデルでも可能であり、エクスプロイトのデモコード生成についてもテストした全モデルで同様の出力が確認されたという。つまり今回のバイパスはFable 5固有の危険な能力を解放したのではなく、Anthropicの表現では「境界線上の挙動(borderline behavior)」にとどまると説明されている。
対策と規制解除:18日間の経緯
Anthropicは問題の挙動を99%以上のケースでブロックする改良済みセーフティ分類器を新たに訓練した。ブロックされたリクエストはOpus 4.8に振り向けられる設計だ。米商務省のAI標準・イノベーションセンター(CAISI)の研究者も新旧両セーフガードをテストし、「極めて強固」と評価した。6月30日に輸出規制が解除され、7月1日よりFable 5はClaude Platform、Claude.ai、Claude Code、Claude Coworkでグローバル提供を再開している。
なお、停止期間中に積み上がった需要への対応として、Pro・Max・Team・一部EnterpriseプランではFable 5の利用は7月7日まで週次利用上限の最大50%の範囲に制限されており、その後は使用クレジット経由となる。AWS・Google Cloud・Microsoft Foundryについては順次再開予定だ。
セーフガードの設計思想:「安全マージン」というトレードオフ
今回の公開でAnthropicはセーフガードの設計思想も詳しく説明している。中心となる概念が「安全マージン(safety margin)」だ。
AIのセーフティ分類器は「有害なリクエストを検出してブロックする」ものだが、検出の閾値をどこに設定するかが問題になる。厳しくすれば有害リクエストの検出漏れは減るが、正当な利用まで誤ってブロック(false positive)してしまう。Fable 5ではこのマージンを過去最大に設定した結果、正当なコーディング・デバッグ作業でも誤検知が増えるというトレードオフが生じている。つまりセーフガードの強化とユーザビリティは本質的に相反する関係にある。
ジェイルブレークの3段階分類
Anthropicはジェイルブレークを以下の3段階に類型化している。
- マイナーなジェイルブレーク:安全マージンにわずかに侵入する程度で実害はほぼない
- 狭い有害ジェイルブレーク:特定の有害挙動を解放するが範囲が限定的
- ユニバーサルジェイルブレーク:広範な有害挙動を一括解放する最も深刻なケース
今回報告されたバイパスはAnthropicの評価では「マイナー」に分類されており、Fable 5でユニバーサルジェイルブレークが発見されたという事実は現時点で存在しないとされている。
業界共通の評価基準策定へ
今回の混乱が浮き彫りにした最大の課題は、「発見されたジェイルブレークがどの程度危険なのかを共通言語で語れない」という点だ。評価基準がなければ、開発者は対応優先順位をつけられず、政府はいつ介入すべきかの判断も難しくなる。今回がまさにその典型例だった。
AnthropicはAmazon、Microsoft、Googleなど複数の業界プレイヤーとともに、ジェイルブレークの深刻度を評価する共通フレームワークの策定に着手した。現時点の提案では4軸でスコアリングする方向だ。
- 能力向上度:既存ツールと比べてどれだけ危険な能力を解放するか
- 幅:同じ手法が何種類の攻撃タスクに使えるか
- 武器化の容易さ:実際の攻撃への転用しやすさ
- 発見可能性:その手法がどれだけ広く知られているか
最も深刻なケースに対しては確認次第即座に暫定対策を展開し、主要な報告チャネルを24時間365日監視するチームも設置するとしている。今後このフレームワークが業界標準として機能するようになれば、「バイパスされた=危険」という単純な二値判断ではなく、リスクの大きさに応じた適切な対応が可能になるだろう。
詳細はRedeploying Claude Fable 5を参照していただきたい。