LLMのコスト表示、分かりづらくないですか？

生成AIのモデル利用料金って、1kトークンあたりの単価かつドル表記なのでパッと見分かりづらくないでしょうか？

そこで、エンタープライズな環境で生成AIアプリケーションを開発する際に最も利用されると思われるAzure OpenAI ServiceのGPTシリーズとAmazon BedrockのClaude 2のコストを、イメージしやすい具体的なシナリオに基づいて月額コスト比較してみました。

比較するモデル

各社、今のところ利用リージョンによる価格差はないようです。

クラウド	モデル	トークン上限	入力コスト	出力コスト
Microsoft Azure	GPT-3.5 Turbo	4k	$0.0015/k	$0.002/k
Microsoft Azure	GPT-3.5 Turbo	16k	$0.003/k	$0.004/k
Microsoft Azure	GPT-4	8k	$0.03/k	$0.06/k
Microsoft Azure	GPT-4	32k	$0.06/k	$0.12/k
AWS	Claude 2	100k	$0.01102/k	$0.03268/k

※最新の価格設定は各社公式ページをご覧ください。

AWSブログの以下記事ページを全コピーし「これを要約して」という一文を添えたプロンプトをLLMに投げて要約させる。

上記の文書要約（入力＋出力）を

場合の月額コストを試算しました。

最近円安が激しいので、実態に近い 1ドル＝ 150円 で計算しています。

クラウド	モデル	トークン上限	月額コスト
Microsoft Azure	GPT-3.5 Turbo	4k	1,098円/月
Microsoft Azure	GPT-4	8k	27,000円/月
AWS	Claude 2	100k	10,876円/月

GPT-3.5 Turboのコスパの高さが分かりますね！
これがGPT-4になると一気に価格が跳ね上がります。Claude 2はその1/3近い価格に収まっています。

しかし上記はGPTシリーズにちょっと有利な比較になっています。
今回、文書要約のサンプルに利用したテキストは8,507トークンありましたので、GPT-3.5/4は上記のモデルだとキャパ越えになりエラーとなってしまいます。

ということで、各社のトークン上限最大モデル同士で改めて比較したものが以下です。

クラウド	モデル	トークン上限	月額コスト
Microsoft Azure	GPT-3.5 Turbo	16k	2,520円/月
Microsoft Azure	GPT-4	32k	54,000円/月
AWS	Claude 2	100k	10,876円/月

※ちなみにAWSのBedrockにはプロビジョンドスループットという機能があり、大規模なワークロード向けに時間単位で性能確保を事前コミットできる契約となっています。こちらは最小ユニットでも1時間あたり9,000円以上かかる破格の設定となっていたため、今回の比較からは除外しています。

Rakudaというベンチマークによると、日本語性能の比較では GPT-3.5 < Claude 2 < GPT-4 というランキングになっているようです。実際のユースケースによっても優劣は変わりますので、参考程度にどうぞ。

価格計算には注意を払っておりますが、もし誤りやお気づきの点があれば遠慮なくコメント等いただけますと幸いです。