7月1日、The Decoderが「Claude Sonnet 5 continues Anthropic's pattern of hiding price increases behind unchanged token rates」と題した記事を公開した。Claude Sonnet 5がトークン単価を据え置いたまま実質的なタスクあたりコストを大幅に引き上げているというAnthropicの価格戦略パターンを、独立系ベンチマーク機関Artificial Analysisの計測データをもとに批判的に検証した内容だ。
「同じ価格」のはずが、タスクあたりコストは倍近くに
エンジニアが真っ先に確認すべき数字がある。
Claude Sonnet 5の公式価格は、入力トークン**$3/百万、出力トークン$15/百万**で、前世代のSonnet 4.6(Claude 4世代の中位モデル)から変わっていない。上位モデルのOpus 4.8(Claude 4世代の最上位モデル、$5/$25)より安い。ここまでは問題ない。
だが、Artificial Analysisが独自評価した実態は異なる。Intelligence Indexの平均タスクあたりコストは、Sonnet 5が**$2.29に対し、高価格帯のはずのOpus 4.8は$1.97。Sonnet 4.6は約$1.20だったので、タスクあたりコストは約1.9倍(≒約2倍)**に膨らんでいる計算だ。出力トークン単価そのものは変わっていないが、1タスクをこなすために消費するトークン量が急増しているため、実際の請求額が跳ね上がる。

タスクあたりコスト比較。Sonnet 5は$2.29とOpus 4.8の$1.97を上回る。| 画像: Artificial Analysis
原因はトークン消費量の急増だ。最大性能設定("max")では、Sonnet 5はSonnet 4.6より出力トークンを約40%多く消費する。エージェント型の知識労働ベンチマーク(AA-BriefcaseやGDPval-AA)では、前世代の約3倍のエージェントループを実行する。モデルがより自律的に動く分、トークンを大量に使い切ってしまう構造だ。
Anthropicが繰り返すパターン
これは今回が初めてではない。
Opus 4.7のリリース時にも同様のことが起きた。Opus 4.7はClaude 4世代の上位モデルで、Opus 4.8はその後継にあたる。公式の単価は据え置かれたが、新しいトークナイザーが同じテキストを「約30%多く」分割する仕様になり、実質的な請求額が膨らんだ。開発者のAbhishek Ray氏の計測では1.325〜1.47倍の増加が確認され、483件以上のサブミッションを分析したコミュニティ調査では、リクエストあたりのトークン数が37.4%増という結果が出た。
Sonnet 5ではトークナイザー問題に加え、モデルのエージェント動作の強化が重なり、コスト増の要因が二重になっている。
性能面での位置づけ
コストの話だけでは不公平なので、性能も確認しておく。

Artificial Analysis Intelligence Index v4.1でのスコア。Sonnet 5は53点で5位。| 画像: Artificial Analysis
Artificial Analysis Intelligence Index v4.1では、Sonnet 5は53点で5位。Sonnet 4.6(47点)から6点の向上だ。上位はClaude Fable 5(Claudeシリーズの最新最上位モデル、60点)、GPT-5.5 xhigh(OpenAIのGPT-5.5の最高性能設定、55点)、Opus 4.8(56点)、Opus 4.7(54点)が占める。GPT-5.5 highとは同点だ。
エージェント系タスクではOpus 4.8を上回るケースもある一方、重い推論ベンチマークでは差が出る。Argonne国立研究所とイリノイ大学によるfrontier 物理推論テスト「CritPt」では**17%**で、前世代より14ポイント上だが、GLM-5.2(中国・智谱AIの大規模モデル)やClaude Opus、Fableより低い。Terminal-Bench v2.1で9点、Humanity's Last Examで10点、SciCodeで7点の改善は見られる。
「タスク単価」で見ない限り、比較に意味はない
記事が指摘する本質的な問題は、トークン単価という指標自体が形骸化している点だ。モデルがより多く思考し、より多くのループを回すほど、同じ単価でも総コストは跳ね上がる。エージェント型AIの普及が進む中で、この傾向は今後さらに顕著になる。
競合との比較も厳しい。Deepseek V4ProやGLM-5.2といった中国勢は、Sonnetが戦う中位セグメントで競合する性能を大幅に低いコストで提供している。
なお、Anthropicは9月1日まで$2/$10のプロモーション価格を設定しているが、Artificial Analysisは通常価格ベースで評価している。
AI APIを実務で使うエンジニアにとって、公式の価格表だけを見て予算を組むと足元をすくわれる可能性がある。タスクあたりの実コストで評価する習慣が必要だ。
詳細はClaude Sonnet 5 continues Anthropic's pattern of hiding price increases behind unchanged token ratesを参照していただきたい。