2,000人・6,000通の攻撃を受けてもAIは秘密を守りきった——プロンプトインジェクション実験が示す「モデル選択」の重要性
DRANK

6月26日、Fernando Iが「What happened after 2,000 people tried to hack my AI assistant」と題した記事を公開した。自作のAIアシスタントに対して2,000人超・6,000通以上のプロンプトインジェクション攻撃を試みた実験の結果と、そこから得られた知見が詳しくまとめられている。結論から言えば、漏洩件数はゼロだった。しかもFernandoがシステムプロンプトに追加したセキュリティルールは、わずか数行のシンプルな指示に過ぎない。AIエージェントのセキュリティリスクが業界全体で議論されるなか、この実験は「プロンプトインジェクション耐性はモデル選択で大きく変わる」という、AIエージェントを本番運用するすべての開発者に刺さる実践的示唆を与えている。

by @tf_official
Related Topics: AI Security CyberAttack