中国製LLMの内部に隠された検閲メカニズムを初めて可視化 — AIの「思考」を重みパラメータから読み取る新手法

5月19日、AI研究者のVasが「What political censorship looks like inside an LLM's weights」と題した記事を公開した。

この記事では、これまでブラックボックスだったLLM（大規模言語モデル）の内部で動作する政治的検閲メカニズムを、重みパラメータレベルで初めて数値的に可視化した画期的な研究について詳しく紹介されている。

今なぜLLMの「内部検閲」研究が重要なのか

2024年以降、ChatGPTやClaude、中国のQwenなど各国のLLMが急速に普及する中、「モデルが何を学習し、どのような判断基準を内部に持っているか」を解明することがAI安全性研究の最重要課題となっている。特に、政治的に敏感なトピックに対するAIの応答パターンは、訓練過程での検閲やバイアスを反映している可能性が指摘されてきたが、従来のブラックボックステストでは内部動作の詳細な分析は困難だった。

そこで注目されているのがアクティベーションステアリングという手法だ。これはモデルの中間層での活性化パターンを分析することで、モデルの「思考過程」を数値的に解明する技術である。

中国AlibaBaのQwenで検閲メカニズムを完全解剖

今回の研究では、中国のeコマース大手Alibabaが開発したQwen-2.5-72B-Instructモデルを対象に、アクティベーションステアリング技術を適用した。Alibabaは中国政府の規制下でAI開発を行っており、同社のLLMには中国の政治的価値観や検閲基準が組み込まれていることが予想されていた。

研究の最も注目すべき成果は、1,056件の生成結果のうち96.8%（1,022件）で、モデルの内部予測と実際の出力パターンが一致することを確認したことだ。残りの3.2%（34件）の不一致も単なるランダムノイズではなく、以下の3つの特定パターンに分類された：

N1: 天安門事件への過度なステアリングによる否定・支離滅裂な応答
N2: 天安門事件への拒否ベクトルによる確信を持った歴史修正
N3: 軽微な有害プロンプトでの軸間リーク現象

3つの検閲軸を数値的に特定

研究では、Qwenモデル内部に3つの主要な検閲軸が存在することを突き止めた：

PRC軸（中国共産党関連）: 中国政府に不利な情報への検閲
拒否軸: 有害コンテンツへの安全性による拒否
否定軸: 事実そのものを否定する応答パターン

これらの軸は独立して動作し、プロンプトの内容に応じて異なる強度で発動する。特に天安門事件（50プロンプト中8件）を含むPRC敏感トピック50件では、明確な検閲パターンが観測された。

興味深い発見として、「中国語優先現象」も確認された。同じ内容でも中国語でプロンプトを与えた場合、英語よりも強い検閲が発動する傾向がある。これは訓練データの言語分布と検閲ラベリングの相関を示唆している。

盲検実験による客観的検証

研究の信頼性を担保するため、盲検LLM判定プロトコルを採用した。Claude Haiku 4.5を主判定者とし、Claude Opus 4.7をフォールバックとして、生成された応答を8つの分類（安全拒否、PRC逸らし、否定、PRC宣伝、部分回答、事実回答、有害遵守、支離滅裂）に振り分けた。

判定者は方向性、ステアリング強度α、実験元を一切知らされず、シャッフルされた結果のみを評価した。これにより判定バイアスを排除している。

研究チームは2つのデータセットも公開した：

D1: 200プロンプトの4クラスセット（PRC敏感50件、中立政治50件、有害50件、無害50件）
D2: 1,056件の生成結果を含むステアリンググリッド

全ての実験結果は再現可能で、抽出された方向ベクトルや中間状態も元データとモデルから再計算できる。

この手法はAI解釈可能性研究において重要な進歩であり、今後他のLLMの内部メカニズム解明にも応用が期待される。また、AI開発における透明性と説明可能性の向上にも貢献する可能性がある。

詳細はWhat political censorship looks like inside an LLM's weightsを参照していただきたい。