AnthropicがClaude Sonnet 5を公開 — エージェント性能をOpus級に高めながらコストを抑え、Free・Proプランのデフォルトモデルへ

6月30日、Anthropicが「Introducing Claude Sonnet 5」と題した記事を公開した。新モデル「Claude Sonnet 5」の性能・価格・安全性評価について詳しく紹介している。

Sonnet 5最大の特徴は、従来Opusクラスのモデルが必要だったエージェント性能を、Sonnetクラスの価格帯で実現した点にある。ベンチマーク上の性能はOpus 4.8に肉薄しながら、2026年8月31日までの導入価格は入力100万トークンあたり2ドル、出力100万トークンあたり10ドル（期間後は入力3ドル・出力15ドル）。本日より全プランで利用可能となり、FreeプランおよびProプランのデフォルトモデルとして設定されている。

Opus級の性能をSonnetの価格帯で

ここ数ヶ月のAnthropicのモデル展開を振り返ると、コーディングやツール使用ではSonnet系（3.5〜3.7、現在のSonnet 4.6）が先行していたが、自律型エージェントタスクにおける性能向上はOpus系に集中し始めていた。エージェント型AI（ブラウザやターミナルなどのツールを自律的に操作するAI）の最前線がOpusに移りつつあったのが実態だ。Sonnet 5はその差を大きく縮めた。

推論・ツール使用・コーディング・知識作業の全領域でSonnet 4.6を上回り、Opus 4.8に迫るスコアを記録している。

Sonnet 5、Sonnet 4.6、Opus 4.8の各評価スコア比較。

また、Sonnet 5は推論にかけるコンピュート量を調整できる「エフォートレベル（effort level）」機能に対応している。リクエストごとに「どれだけ深く考えるか」を指定できる仕組みで、エフォートレベルを上げるとトークン消費は増えるが、BrowseComp（エージェント型ウェブ検索評価）やOSWorld-Verified（コンピュータ操作評価）といったベンチマークでの精度が向上する。高精度が必要な場面ではOpus 4.8、コスト効率を優先する場面ではSonnet 5、という使い分けが現実的な選択肢になった。

エージェント性能の実態：パートナー企業の声

公式記事では複数のアーリーアクセスパートナーのコメントが掲載されており、実際の用途が具体的に見えてくる。特に印象的なのは以下の2点だ。

自律的なデバッグ能力について、あるパートナーはこう述べている。

Claude Sonnet 5にバグの調査を依頼した。プロンプトなしで、再現テストを書き、修正を実装し、変更なしでバグが再発することを確認するためにスタッシュした。すべて1パスで完了した。

複数ステップの業務自動化については別のパートナーから。

SalesforceアカウントのTier更新とエンタープライズ連絡先へのローンチアナウンス送信という2段階のジョブを渡したところ、エンドツーエンドで完了した。以前は途中で止まっていた。日常的な自動化なら迷わず使える。

「途中で止まらず最後までやり遂げる」「明示的に指示しなくても自分の出力を検証する」という点が複数のテスターから共通して言及されており、これが前世代Sonnetとの実用上の最大の差として浮かび上がる。

安全性評価：サイバーセキュリティリスクへの対応

Sonnet 5の安全性についても詳細なデータが公開されている。幻覚（ハルシネーション）・迎合的応答（sycophancy）の発生率はSonnet 4.6より低下し、プロンプトインジェクション攻撃への耐性も向上している。不正行為の全体的な発生率もSonnet 4.6より低い。ただし、Opus 4.8や同社の別モデル「Claude Mythos Preview」と比較すると、不整合挙動の発生率はやや高い水準にある。

サイバーセキュリティ面では、AnthropicはSonnet 5に意図的なサイバー攻撃タスクの訓練を施していない。Mozillaと共同開発した評価（Firefox 147の脆弱性に対するエクスプロイト開発テスト）では、Sonnet 5は動作するエクスプロイトの完全開発に成功したケースはゼロ（成功率0.0%）だった。部分的な成功率はSonnet 4.6よりわずかに高いが、Anthropicはこれを特定のサイバー訓練の結果ではなく、汎用的な知能向上の副産物と説明している。

なお、この評価で使用された脆弱性はすべてFirefox 148で修正済みである。Sonnet 5はデフォルトでサイバー保護機能が有効化されており、危険なサイバー用途をリアルタイムで検出・ブロックする。保護レベルはOpus 4.7/4.8と同等の設定となっている。安全性・能力評価の詳細はClaude Sonnet 5 System Cardにまとめられている。

提供状況とAPI利用

本日より全プランで利用可能で、Free・Proプランのデフォルトモデルとして設定されている。Max・Team・Enterpriseユーザーも利用でき、Claude CodeおよびClaude Platform上でも提供される。APIからはClaude APIのモデル一覧に記載のモデルIDで利用可能。Chat・Claude Code・Claude Platform全体でレートリミットも引き上げられており、高エフォートレベルでのトークン使用量増加に対応している。

詳細はIntroducing Claude Sonnet 5を参照していただきたい。