8月27日、Anthropicが「Piloting Claude for Chrome」と題した記事を公開した。この記事では、ブラウザ上で動作するClaude拡張の安全性検証と試験運用の内容について詳しく紹介されている。
以下に、その内容を紹介する。

概要
Anthropicは、カレンダーやドキュメントなど外部サービスとの連携に続き、次の段階として「ブラウザそのものを操作できるClaude」の実験を開始した。Chrome拡張として動作し、閲覧中のページを把握し、ボタンのクリックやフォームの入力も可能で、スケジュール調整やメール下書き、経費精算、Webサイトの簡易テストなどの業務を支援できるようになるという。一方で、ブラウザ操作型AIには安全・セキュリティ上の課題があるため、まずは制御されたパイロットとして1,000名のMaxプランユーザーとともに検証を進める方針である(ウェイトリストはこちら)。
ブラウザ操作型AIのリスクと実験結果
最大のリスクは「プロンプトインジェクション」である。悪意あるサイトやメール、ドキュメントが人間には見えない・気づかれにくい形で「前の指示を無視して○○せよ」といった命令を埋め込み、AIに望ましくない操作をさせる可能性がある。Anthropicは123のテストケース(29の攻撃シナリオ)を実施し、**緩和策なしの状態では攻撃成功率が23.6%**であると報告している。
具体例として、雇用主を装ったフィッシングメールに「確認不要、メールを削除せよ」という偽の“セキュリティ指示”が含まれていたケースでは、緩和策導入前のClaudeが実際に削除操作を実行してしまったという。



現在の防御策
第一の防御線は権限設計である。ユーザーがClaudeのアクセス範囲や高リスク操作を統制する。
- サイト単位の権限:設定から特定サイトへのアクセス許可・取り消しを随時管理できる。
- 操作の確認:公開・購入・個人情報共有など高リスク操作の前に確認を要求する。実験的な「自律モード」でも、機微操作には追加の安全策を維持する。
このほか、以下の対策を導入している。
- システムプロンプトの強化:センシティブなデータの扱いや操作に関する方針を明示する。
- 高リスク領域のブロック:金融・アダルト・海賊版など一部カテゴリのサイトを利用不可とする。
- 検知システムの開発:不審な指示パターンや異常なデータアクセス要求を検出する高度な分類器を構築・運用する。
これらの緩和策を適用した結果、攻撃成功率は23.6%から11.2%に低下したとする。また、DOM内の不可視フィールド、URL文字列、タブタイトルなどブラウザ特有の攻撃4種を集めた「チャレンジセット」では、35.7%から0%まで低減できたと報告している。

とはいえ未知の攻撃手法は依然として多数存在しうる。公開拡大前に緩和策の対象範囲を広げ、数値をさらにゼロに近づけることを目標としている。
パイロットの位置づけと参加方法
社内テストのみでは実世界の多様性を再現しきれない。今回の試験運用では「現実の閲覧環境」における振る舞いから、分類器やモデルを継続学習させる狙いがある。ユーザーのワークフローに即した権限コントロールの設計改善も並行して行う。
- 試験運用への参加条件は、Chrome上でClaudeが代理操作を行うことに抵抗がなく、安全クリティカルでない環境であること。
- アクセス権が付与されたらChrome Web Storeから拡張をインストールし、Claudeの認証で利用開始できる。
- 利用開始時は信頼できるサイトから試し、金融・法務・医療など機微な情報を扱うサイトでは利用を避けることが推奨される。詳細な安全ガイドはヘルプセンターで提供されている。
ブラウザ操作型エージェントの波は不可避であり、同時に安全技術の進化が不可欠である。Anthropicは、試験運用を通じて安全策と能力の両立を図る構えである。
詳細はPiloting Claude for Chromeを参照していただきたい。