AIブラウザのガードレールをゲーム形式で突破する攻撃手法「BioShocking」——ChatGPT Atlas・Cometで実証された間接プロンプトインジェクションの脅威

7月3日、Futurismが「AI Browsers Can Basically Be Hypnotized Into Turning Against Their User and Carrying Out Devastating Hacks」と題した記事を公開した。サイバーセキュリティ企業LayerXの研究者が、主要AIブラウザのガードレール（安全制御機能）をゲーム形式の偽コンテキストで無効化する攻撃手法「BioShocking」を実証したという内容だ。

AIブラウザを「催眠」にかける攻撃手法「BioShocking」

研究者が標的としたのは、OpenAIのChatGPT Atlas、Perplexity AIのComet、AnthropicのClaude（Chrome拡張）の3製品だ。

このうちChatGPT AtlasはOpenAIがリリースしたAIエージェント機能統合ブラウザで、ユーザーに代わってWebページの操作・フォーム送信・コード実行などを自律的に行える。CometはPerplexity AIが開発したブラウザ統合型AIで、同様にページ内コンテンツを読み取りながらエージェント的な操作を実行できる。いずれも「ユーザーの意図を読み取り、代理で動く」ことを設計思想の中核に置いているが、それが今回の攻撃の足がかりになった。

研究者らが実証した攻撃手法の名は「BioShocking」——2007年のビデオゲーム『BioShock』にちなんだ命名で、主人公が特定のフレーズによって意に反した行動を強いられる設定を参照している。これら3製品すべてが、この手法によって任意のコマンドを実行させられることが確認された。

「現実ではない」と思わせることがカギ

AIブラウザは通常、「自分が置かれているコンテキストは現実である」という前提のもとで動作する。そのため、安全ガードレールの範囲内でしか行動しない。

BioShockingはこの前提を逆手に取る。研究者たちはBioShockをテーマにしたパズルページを作成し、AIに「意図的に間違った答えを出すとポイントが得られる」というゲームに参加させた。例えば「2+2=5」のような誤答を報酬付きで繰り返させることで、AIは「このコンテキストでは誤った行動が正しい」という状態に誘導される。

最終的にAIは「Victory is defeat（勝利は敗北だ）」というオーウェルの『1984』を想起させる矛盾した発言を行うまでになった。現実から切り離された状態、いわば「催眠状態」だ。

実際の攻撃シナリオ

攻撃の入口は間接プロンプトインジェクションだ。プロンプトインジェクションとは、悪意あるプロンプトをWebページのコンテンツに埋め込み、AIにそれを読み取らせることで意図しない命令を実行させる手法を指す。中でも今回のような「ユーザーが閲覧したページを通じて発動する」タイプは間接プロンプトインジェクションと呼ばれ、ユーザー自身が入力欄に悪意ある文字列を貼り付けなくても成立するため、より広い攻撃面を持つ。セキュリティ研究者のSimon Willison氏らが早くから問題を指摘しており、LLMエージェントの普及とともに脅威として注目度が高まっている分野だ。

今回の手法はこれをゲーム形式の文脈操作と組み合わせることで、ガードレールそのものを迂回する点が新しい。何も知らないユーザーが一見無害なページを開いた瞬間、AIブラウザはそのページ上の悪意あるプロンプトに引き込まれる。

研究者が示した具体的なシナリオでは、AIが /code というパスへ誘導され、ユーザーの雇用主のGitHubリポジトリが開かれた。研究者はこう述べている。

「実際の攻撃では、そのリダイレクト先はユーザーのブラウザセッション内のどこへでも向けられる可能性がある——開いているタブ、認証済みのリポジトリ、社内ツールなどだ。」

パスワードの変更、マルウェアのインストール、情報の窃取——これらが実行可能な被害として挙げられている。

ユーザーが「気づけば」止められるが……

この攻撃の特徴として、AIが画面上で問題のある発言や行動をするため、ユーザーが注意していれば介入できる。攻撃は完全に隠れて進行するわけではない。

しかし裏を返せば、ユーザーが画面を注視していなければ気づかない。そして本質的な問題は変わらない——AIブラウザが置かれるコンテキストは外部から操作可能であり、AIはそれを疑わない。

LayerXは今回の研究についてOpenAI・Perplexity AI・Anthropicへの開示（責任ある開示プロセス）を行ったとされており、元記事執筆時点では各社の対応状況は明らかにされていない。今後の対策としては、AIエージェントが外部コンテンツを処理する際のサンドボックス化や、ユーザー確認ステップの強制が議論の俎上に上がることが予想される。

攻撃者はもはやユーザー本人を騙す必要がない。ユーザーの代わりに動くAIエージェントを騙せばいい——これはAIブラウザ固有の設計上の弱点であり、AIエージェントの普及が進む中でこの攻撃面（アタックサーフェス）はそのまま拡大していく。

詳細はAI Browsers Can Basically Be Hypnotized Into Turning Against Their User and Carrying Out Devastating Hacksを参照していただきたい。