無料で使えるGLM 5.2、脆弱性検出でClaudeを上回る — Semgrepが示した「ハーネスの設計こそが本質」という結論
DRANK

6月28日、Semgrepが「We have Mythos at Home: GLM 5.2 beats Claude in our Cyber Benchmarks」と題した記事を公開した。この記事では、オープンウェイトモデルのGLM 5.2がIDOR脆弱性検出ベンチマークでClaudeを上回った実験結果と、その背後にある「ハーネス設計の重要性」について詳しく紹介されている。「プロンプトだけ」のオープンウェイトモデルがフロンティアモデルを抜いたSemgrepのセキュリティリサーチチームはIDOR(Insecure Direct Object Reference)検出ベンチマークを複数のモデルで実行した。その結果、Zhipu AI(Z.ai)製のオープンウェイトモデルGLM 5.2がF1スコア39%を記録し、Claude Code(32%)を上回った。コストはIDOR脆弱性1件の検出あたり約$0.17という水準だ。フロンティアモデルでもなく、専用ハーネスを与えられたわけでもない。プロンプトとコードベースだけを渡されたオープンウェイトモデルが、専用SDKで動くClaudeを上回ったこの結...

by @tf_official
Related Topics: AI Security Vulnerability