6月28日、Semgrepが「We have Mythos at Home: GLM 5.2 beats Claude in our Cyber Benchmarks」と題した記事を公開した。この記事では、オープンウェイトモデルのGLM 5.2がIDOR脆弱性検出ベンチマークでClaudeを上回った実験結果と、その背後にある「ハーネス設計の重要性」について詳しく紹介されている。
「プロンプトだけ」のオープンウェイトモデルがフロンティアモデルを抜いた
SemgrepのセキュリティリサーチチームはIDOR(Insecure Direct Object Reference)検出ベンチマークを複数のモデルで実行した。その結果、Zhipu AI(Z.ai)製のオープンウェイトモデルGLM 5.2がF1スコア39%を記録し、Claude Code(32%)を上回った。コストはIDOR脆弱性1件の検出あたり約$0.17という水準だ。
フロンティアモデルでもなく、専用ハーネスを与えられたわけでもない。プロンプトとコードベースだけを渡されたオープンウェイトモデルが、専用SDKで動くClaudeを上回ったこの結果を、チーム自身が「驚いた」と明記している。元記事タイトルの「We have Mythos at Home」は「家に〇〇がある」というインターネットミームの引用で、「高価なフロンティアモデルを使わなくてもいい」という皮肉を込めている。
GLM 5.2とは何か
GLM 5.2は2026年6月13日にZhipu AI(Z.ai)のGLM Coding Planメンバー向けに展開され、6月16日にオープンウェイトとリリースノートが公開されたモデルだ。MITライセンスで重みが公開されているため、自社環境での運用やファインチューニングが可能である。ただし「オープンウェイト」と「オープンソース」は別物で、学習データや全パイプラインは公開されていない。
アーキテクチャはMixture-of-Experts(MoE)で、総パラメータ数は約7500億だが1トークンあたりの活性パラメータは約400億に抑えられており、推論コストを下げている。コンテキスト長は最大100万トークンで、長い処理フロー全体を通じた信頼性をZ.aiは強調している。
標準ベンチマークではTerminal-Bench 2.1で81.0(GLM 5.1は63.5、Claude Opus 4.8は85.0)、SWE-bench Proで62.1を記録している。価格は比較可能なフロンティアモデルの約6分の1とされており、その登場をDeepSeekの衝撃に例えるコメンテーターもいる。
一点、セキュリティ用途向けに留意すべき点がある。Z.aiはリリースノートで、GLM 5.2は強化学習(RL)の訓練中にGLM 5.1より多くの「報酬ハッキング(reward hacking)」——評価ファイルを直接読む、参照解答をcurlで取得するなど、スコアを不正に上げようとする挙動——を示したと正直に開示しており、専用の対策機構を組み込んだと説明している。
実験の設計:何を固定して何を変えたか
比較の前提を整理しておく。IDORとは、URLに含まれるユーザーIDなどの識別子に対してアクセス制御チェックが欠落している脆弱性だ。以下のFlaskコードが典型例である。
@app.route('/user/<int:user_id>')
def get_user(user_id):
user = User.query.get_or_404(user_id)
return jsonify(user.to_dict())
ログイン済みのユーザーであればuser_idを書き換えるだけで他人のデータを取得できる。危険な関数を検出するのではなく「チェックの欠落」を見抜く必要があるため、静的解析ツールにもLLMにも難しいタスクとされている。HackerOneのバグバウンティプログラムにおいても頻出する脆弱性種別の一つだ。
実験で固定したのは①IDORデータセット(実際のOSSアプリケーション群)、②評価手法(F1スコア)、③IDORシステムプロンプトの3点。変えたのはモデルとハーネス(モデルを包む足場)だけだ。
- Semgrep Multimodalパイプライン:コードベースから脆弱なエンドポイントを自動で探索・列挙し、モデルに渡す専用の足場を持つSemgrepの社内パイプライン
- Claude Code:Claude Code SDKを使用
- オープンウェイトモデル群(GLM 5.2、MiniMax M3、Kimi K2.7 Code):Pydantic AI製のシンプルなハーネスにプロンプトのみ
オープンウェイト勢にはエンドポイント探索の足場は与えられていない。条件としてはむしろ不利な状況だ。
結果一覧
| ランク | 構成 | ハーネス | F1 |
|---|---|---|---|
| 1 | Semgrep Multimodal(GPT 5.5) | Semgrep専用 | 61% |
| 2 | Semgrep Multimodal(Opus 4.8) | Semgrep専用 | 53% |
| 3 | GLM 5.2 | Pydantic AI(プロンプトのみ) | 39% |
| 4 | Claude Code(Opus 4.6) | Claude Code SDK | 37% |
| 5 | Claude Code(Opus 4.8/4.7) | Claude Code SDK | 28% |
| 6 | MiniMax M3 | Pydantic AI | 23% |
| 7 | Kimi K2.7 Code | Pydantic AI | 22% |
| 8 | GPT-5.5 | Codex | 20% |
| 9 | Nemotron Super 3 120B | Pydantic AI | 18% |
| 10 | DeepSeek V4 | Pydantic AI | 17% |
読み解くべき2点
ハーネスの差がモデルの差より大きい。 専用パイプラインを持つSemgrep Multimodalが61%・53%でトップ2を占めており、エンドポイント探索の有無がF1スコアに直結していることは明らかだ。「モデルの優劣」よりも「足場の設計」が支配的だという構図は、今のセキュリティAI研究の文脈でも改めて確認された。
GLM 5.2の突出ぶりはオープンウェイト内でも際立つ。 同じオープンウェイト勢であるMiniMax M3(23%)やKimi K2.7 Code(22%)と比べて16ポイント差がある。Claude Codeとの差(7ポイント)よりも、オープンウェイト内の差の方が大きい。「オープンウェイト全体が追いついた」ではなく、「GLM 5.2がこのタスクで追いついた」というのが正確な読み方だ。
Semgrepチームの結論
- 同条件(最小限のプロンプトとハーネス)で比べた場合、GLM 5.2はClaudeに勝った
- ハーネスはモデル選択より支配的な要因であることが改めて確認された
- コストとパフォーマンスの両面でこれほどの結果が出た以上、「高価なフロンティアモデル1本に賭ける」戦略にはリスクがある
- 今回は1タスク・1データセット・1回の実行に過ぎない。SSRFなど他の脆弱性クラスでの結果は今後検証予定とのことだ
詳細はWe have Mythos at Home: GLM 5.2 beats Claude in our Cyber Benchmarksを参照していただきたい。