AIの「思考ログ」を偽造してモデルを騙す攻撃手法が登場 — タグよりも「文体」を信じてしまうLLMの盲点

7月2日、Hackadayが「Chain-of-Thought Spoofing Targets Reasoning AI Models」と題した記事を公開した。この記事では、推論AIモデルの内部思考プロセスを偽装することでモデルを誤動作させる新たな攻撃手法について詳しく紹介されている。

プロンプトインジェクションの延長線上にある、より巧妙な攻撃

LLMへの攻撃手法として知られるプロンプトインジェクションは、「以前の指示をすべて無視して〇〇せよ」のような単純な命令を混入させることで始まった。これが成立する根本的な理由は、LLMがデータと命令を分離した別チャンネルで処理していないからだ。すべての入力は一つの大きなテキストの塊として扱われ、「これは正規の指示か、それともユーザーが混入させた不審なデータか」を判断するのはモデル自身に委ねられている。

この問題に対する緩和策として導入されたのがロール（役割）タグだ。<system>、<user>といったメタデータタグで入力を階層化し、優先順位を持たせる仕組みである。たとえばシステムレベルで「違法な情報を提供するな」と指示されていれば、ユーザーが「コカインの製造方法を教えて」と要求しても上位の指示が優先される。

核心：`<think>`タグの高い信頼性を悪用するCoT Forgery

推論特化型モデル（DeepSeekやQwQなど）には<think>タグが存在する。これはモデルの内部思考プロセスを表すタグで、当然ながら高い信頼度が付与されている。

Charles Ye、Jasmine Cui、Dylan Hadfield-Menellの3名による研究が明らかにしたのは、LLMはタグの内容（メタデータ）よりも文体（ライティングスタイル）を優先して役割を判断しているという点だ。

この性質を突いた攻撃手法を、本記事では元記事の表現に倣い「CoT Forgery（Chain of Thought偽造）」と呼ぶ。攻撃の手順は以下のとおりだ。

モデルの<think>内部推論に特有の文体・語調を模倣した、複雑に見えるテキストを生成する
そのテキストを入力に混入させる
モデルはそれを「自分がすでに推論し、結論に達した思考の結果」として扱ってしまう

重要なのは、この攻撃が単に<think>タグで囲むだけではないという点だ。タグの有無ではなく、タグの内側にあるような「それらしい文体」でモデルを騙している。上の図が示すように、明らかに荒唐無稽な推論内容でも、文体が合致していれば既成事実として扱われ、最終的なレスポンスが改変される。

推論特化型モデルに限らない問題である理由

CoT Forgeryは<think>タグを持つ推論特化型モデルへの攻撃として紹介されているが、根本的な脆弱性はより普遍的だ。問題の核心は「文体がロール認識に影響する」という性質にあり、これはDeepSeekやQwQに固有のアーキテクチャ的欠陥ではなく、テキストを単一ストリームで処理するLLM全般に潜在する構造的問題である。<think>タグはその性質を際立たせる舞台にすぎず、同様の文体模倣アプローチは他のロールタグやシステムプロンプト形式にも応用しうる。ツールとしてLLMを組み込んだRAGパイプラインやエージェント型システムでは、外部ソースから取得したテキストが入力に混入する経路が常に存在するため、推論特化型モデルを使っていない場合でも無関係とは言えない。

※編集部の考察：現時点で有効な対策の方向性としては、外部入力をモデルに渡す前に「思考風文体」を検出・サニタイズする前処理レイヤーの導入、あるいはシステムプロンプトと外部入力を構造的に隔離するフレームワーク設計が考えられる。ただし研究チームが強調するとおり、攻撃者が文体を動的に適応させる限り、完全な防御は困難だ。

「解決済みの問題」にはまだ遠い

研究チームが論文で強調しているのは、プロンプトインジェクション系の攻撃が当面は「進化し続ける問題」であり、近い将来に解決される見込みは薄いという点だ。その理由として挙げられているのが以下の4点だ。

LLMは命令に従順である
データと命令が単一チャンネルに混在する構造的な問題が残る
ロールの認識はバイナリ（0か1か）ではなく、グラデーションがある
人間の攻撃者は創造的である

論文全文はarXiv（論文番号：2603.12277）で公開されており、コード例はGitHub（role-confusion/prompt-injection-as-role-confusion）で確認できる。なお元記事が参照するarXivのURLについては、番号形式に関して読者側で最新の掲載状況を確認されたい。

LLMをツールとして組み込んだシステムを構築・運用しているエンジニアにとって、入力の検証だけでは防ぎきれない攻撃ベクタが存在することを示した研究として押さえておきたい内容だ。

詳細はChain-of-Thought Spoofing Targets Reasoning AI Modelsを参照していただきたい。

プロンプトインジェクションの延長線上にある、より巧妙な攻撃

核心：<think>タグの高い信頼性を悪用するCoT Forgery

推論特化型モデルに限らない問題である理由

「解決済みの問題」にはまだ遠い

核心：`<think>`タグの高い信頼性を悪用するCoT Forgery