AIの「思考ログ」を偽造してモデルを騙す攻撃手法が登場 — タグよりも「文体」を信じてしまうLLMの盲点
DRANK

7月2日、Hackadayが「Chain-of-Thought Spoofing Targets Reasoning AI Models」と題した記事を公開した。この記事では、推論AIモデルの内部思考プロセスを偽装することでモデルを誤動作させる新たな攻撃手法について詳しく紹介されている。プロンプトインジェクションの延長線上にある、より巧妙な攻撃LLMへの攻撃手法として知られるプロンプトインジェクションは、「以前の指示をすべて無視して〇〇せよ」のような単純な命令を混入させることで始まった。これが成立する根本的な理由は、LLMがデータと命令を分離した別チャンネルで処理していないからだ。すべての入力は一つの大きなテキストの塊として扱われ、「これは正規の指示か、それともユーザーが混入させた不審なデータか」を判断するのはモデル自身に委ねられている。この問題に対する緩和策として導入されたのがロール(役割)タグだ。<system>、<user>といったメタデータタグで入力を階層化し、優先順位を持たせる仕組みである。たとえばシステムレベルで「違法な情報を提供するな」と指示されていれば、ユーザーが「コカ...

by @tf_official
Related Topics: AI Security CyberAttack