6月30日、Anthropicが「Introducing Claude Sonnet 5」と題した記事を公開した。新モデル「Claude Sonnet 5」の性能・価格・安全性評価について詳しく紹介している。
Sonnet 5最大の特徴は、従来Opusクラスのモデルが必要だったエージェント性能を、Sonnetクラスの価格帯で実現した点にある。ベンチマーク上の性能はOpus 4.8に肉薄しながら、2026年8月31日までの導入価格は入力100万トークンあたり2ドル、出力100万トークンあたり10ドル(期間後は入力3ドル・出力15ドル)。本日より全プランで利用可能となり、FreeプランおよびProプランのデフォルトモデルとして設定されている。
Opus級の性能をSonnetの価格帯で
ここ数ヶ月のAnthropicのモデル展開を振り返ると、コーディングやツール使用ではSonnet系(3.5〜3.7、現在のSonnet 4.6)が先行していたが、自律型エージェントタスクにおける性能向上はOpus系に集中し始めていた。エージェント型AI(ブラウザやターミナルなどのツールを自律的に操作するAI)の最前線がOpusに移りつつあったのが実態だ。Sonnet 5はその差を大きく縮めた。
推論・ツール使用・コーディング・知識作業の全領域でSonnet 4.6を上回り、Opus 4.8に迫るスコアを記録している。

Sonnet 5、Sonnet 4.6、Opus 4.8の各評価スコア比較。
また、Sonnet 5は推論にかけるコンピュート量を調整できる「エフォートレベル(effort level)」機能に対応している。リクエストごとに「どれだけ深く考えるか」を指定できる仕組みで、エフォートレベルを上げるとトークン消費は増えるが、BrowseComp(エージェント型ウェブ検索評価)やOSWorld-Verified(コンピュータ操作評価)といったベンチマークでの精度が向上する。高精度が必要な場面ではOpus 4.8、コスト効率を優先する場面ではSonnet 5、という使い分けが現実的な選択肢になった。
エージェント性能の実態:パートナー企業の声
公式記事では複数のアーリーアクセスパートナーのコメントが掲載されており、実際の用途が具体的に見えてくる。特に印象的なのは以下の2点だ。
自律的なデバッグ能力について、あるパートナーはこう述べている。
Claude Sonnet 5にバグの調査を依頼した。プロンプトなしで、再現テストを書き、修正を実装し、変更なしでバグが再発することを確認するためにスタッシュした。すべて1パスで完了した。
複数ステップの業務自動化については別のパートナーから。
SalesforceアカウントのTier更新とエンタープライズ連絡先へのローンチアナウンス送信という2段階のジョブを渡したところ、エンドツーエンドで完了した。以前は途中で止まっていた。日常的な自動化なら迷わず使える。
「途中で止まらず最後までやり遂げる」「明示的に指示しなくても自分の出力を検証する」という点が複数のテスターから共通して言及されており、これが前世代Sonnetとの実用上の最大の差として浮かび上がる。
安全性評価:サイバーセキュリティリスクへの対応
Sonnet 5の安全性についても詳細なデータが公開されている。幻覚(ハルシネーション)・迎合的応答(sycophancy)の発生率はSonnet 4.6より低下し、プロンプトインジェクション攻撃への耐性も向上している。不正行為の全体的な発生率もSonnet 4.6より低い。ただし、Opus 4.8や同社の別モデル「Claude Mythos Preview」と比較すると、不整合挙動の発生率はやや高い水準にある。
サイバーセキュリティ面では、AnthropicはSonnet 5に意図的なサイバー攻撃タスクの訓練を施していない。Mozillaと共同開発した評価(Firefox 147の脆弱性に対するエクスプロイト開発テスト)では、Sonnet 5は動作するエクスプロイトの完全開発に成功したケースはゼロ(成功率0.0%)だった。部分的な成功率はSonnet 4.6よりわずかに高いが、Anthropicはこれを特定のサイバー訓練の結果ではなく、汎用的な知能向上の副産物と説明している。

なお、この評価で使用された脆弱性はすべてFirefox 148で修正済みである。Sonnet 5はデフォルトでサイバー保護機能が有効化されており、危険なサイバー用途をリアルタイムで検出・ブロックする。保護レベルはOpus 4.7/4.8と同等の設定となっている。安全性・能力評価の詳細はClaude Sonnet 5 System Cardにまとめられている。
提供状況とAPI利用
本日より全プランで利用可能で、Free・Proプランのデフォルトモデルとして設定されている。Max・Team・Enterpriseユーザーも利用でき、Claude CodeおよびClaude Platform上でも提供される。APIからはClaude APIのモデル一覧に記載のモデルIDで利用可能。Chat・Claude Code・Claude Platform全体でレートリミットも引き上げられており、高エフォートレベルでのトークン使用量増加に対応している。
詳細はIntroducing Claude Sonnet 5を参照していただきたい。