AnthropicのFable 5、ジェイルブレイクをめぐる約2週間の提供停止を経て世界展開を再開 — 「完全耐性は不可能」と認めつつ新たな安全対策を導入

7月1日、The Decoderが「Anthropic's Fable 5 is back worldwide after a two-week government ban over a jailbreak」と題した記事を公開した。最も注目すべき点は、Anthropicが「AIモデルをジェイルブレイクに完全に耐性を持たせることはおそらく不可能だ」と公式に認めたことだ。その上で同社は、ジェイルブレイク（安全制限の迂回）問題を受けて世界向け提供を一時停止していた最上位モデル「Fable 5」を再リリースするに至った経緯と、新たな安全対策の詳細を明かしている。

Fable 5とは何か——Claude系列における位置づけ

「Fable 5」はAnthropicが2026年に投入した最上位モデルであり、同社のClaude系列の中で最も高い能力を持つフロンティアモデルに相当する。同じベースモデルを基盤としつつ安全制限を緩和した「Mythos 5」はその派生版で、政府承認を前提とした限定用途向けに位置づけられる。一方、本文中で言及される「Claude Opus 4.8」「Claude Haiku 4.5」はFable 5より能力の低い旧世代・小規模モデルであり、比較対象として登場する。「GPT-5.5」はOpenAI、「Kimi K2.7」は中国のMoonshot AIのモデルだ。

ジェイルブレイク発覚からわずか2週間で世界展開再開

7月1日より、Fable 5はClaude Platform、Claude.ai、Claude Code、Claude Coworkを通じて世界向けに再び提供される。 Pro・Max・Team・一部Enterpriseプランでは7月7日まで週次利用上限の最大50%を無償で使用でき、以降はクレジット課金に切り替わる。AWS・Google Cloud・Microsoft Foundry上での提供は「できる限り早急に」復旧予定だ。

ただし、同じベースモデルを基盤とする制限緩和版「Mythos 5」は引き続き、6月26日に政府承認を受けた米国内の一部組織に限定される。Anthropicはいわゆる「Glasswingプログラム」を通じてパートナーへのアクセス拡大を政府と調整中だが、EUが参加するかどうかは現時点で不明だ。

発端：Amazonの研究者が安全ガードレールの迂回手法を発見

禁止の直接的な原因は、Amazonの研究者がFable 5の安全ガードレールを回避する方法を発見したことだ。 モデルはその後、複数のソフトウェア脆弱性を特定し、うち1件についてはその脆弱性を悪用するコードを実際に生成した。

AnthropicはこれをAIの安全性をめぐる深刻な問題として受け止め、米政府と協議しながら2週間にわたる調査を実施した。元記事の記述に基づけば、この提供停止はAnthropicが政府との協議を踏まえて行った措置であり、政府が一方的に禁止命令を下したというより、両者が連携して対応したという経緯に近い。（※編集部の考察：元記事の表現上「government ban」という語が使われているが、実態がAnthropicによる自主停止と政府協議の組み合わせだった可能性もあるため、読者は元記事の原文も参照されたい）

調査の結果、注目すべき点が浮かび上がった。同様の脆弱性はClaude Opus 4.8（Fable 5より能力の低い旧世代モデル）、GPT-5.5、Kimi K2.7など、複数のモデルでも検出できた。さらに、問題の悪用デモについては、Claude Haiku 4.5のような小規模モデルを含む全テスト対象モデルが同じ結果を出した。Anthropicはこれを「通常の防御的サイバーセキュリティ作業の範囲内のエッジケース」と位置づけている。

新たな安全分類器の導入と、そのトレードオフ

対策として、Anthropicは改良版の安全分類器（セーフティクラシファイア）をトレーニングし、Amazonの報告書にある手法を99%超のケースでブロックするようにした。ブロックが発動した場合、ユーザーには通知が表示され、リクエストは旧モデルのOpus 4.8に自動ルーティングされる。

しかし、この対策には副作用がある。日常的なコーディングやデバッグ作業でも無害なリクエストが誤ってブロックされるケースが増えた。 Anthropicが公開した図解によれば、Fable 5の安全マージン（行B）は標準的なガードレール（行A）よりも大幅に広く設定されており、危険なリクエストの通過を抑える一方、無害なリクエストの遮断も増える設計だ。

Fable 5（行B）の安全マージンは標準的なガードレール（行A）より広く、危険なリクエストを抑えるが、無害なリクエストも多くブロックされる。画像：Anthropic

Fable 5の初期リリース時にもユーザーから「制限が厳しすぎる」との声が上がっていたことを踏まえると、このトレードオフは引き続き議論を呼びそうだ。

Anthropicは「AIモデルをジェイルブレイクに完全に耐性を持たせることはおそらく不可能だ」と認めている。その上で、業界全体でジェイルブレイクを評価し対策を講じる共通基準が必要だとし、Amazon・Microsoft・Google・その他Glasswingパートナーとともにそのフレームワーク構築を進めていると述べた。また、セキュリティ研究者がFable 5のサイバー系ジェイルブレイクを報告できるHackerOneプログラムを新設し、24時間365日のモニタリング体制も整備する。

フロンティアモデルへの政府関与の制度化を求める

Anthropicはこの一件を契機に、米政府との協力関係を強化する方向性を明示した。具体的なコミットメントとして、セキュリティ上の重要領域で能力を高めるモデルについてはリリース前に政府パートナーへのアクセスを提供すること、発見されたジェイルブレイクや悪用パターンを迅速に共有すること、共同研究のための専用リソースと大規模なコンピュートを提供することを約束した。

そして同社は、こうした枠組みを「強固な規制」として明文化し、すべてのフロンティアモデル開発者に同等に適用することを求めている。「政府のAIリリースへの関与には、サイバー防衛担当者らが強力なモデルへのアクセスについて確実性を持てる、持続可能で透明なプロセスが必要だ」とAnthropicは述べた。

詳細はAnthropic's Fable 5 is back worldwide after a two-week government ban over a jailbreakを参照していただきたい。