GPT-4 Turboから離れたら、AI面接コストが90%減った — Amazon Bedrockのマルチモデル設計で収益構造が変わった事例

7月3日、AWSが「How InterWiz reduced AI costs by 90% with Amazon Bedrock」と題した記事を公開した。AI採用支援SaaS企業InterWizがAmazon Bedrockへの移行によってAIコストを90%削減した事例を詳しく紹介している。注目すべきはコスト削減の数字そのものだけでなく、1面接あたりのコストが収益の40%を食い潰していた構造が変わったことで、スケールへの投資判断が根本から変わった点にある。

GPT-4 Turboへの依存が収益構造そのものを歪めていた

InterWizはAI駆動の採用支援企業で、月間1,000件以上の採用面接を自動化している。候補者への文脈に沿った追加質問、深掘りのプローブ、総合評価レポートの生成まで、一連の面接プロセスをAIが担う仕組みだ。

問題はコスト構造だった。GPT-4 Turboを使用していた当時、1面接あたりのAIコストは$0.25。これが1面接あたりの収益の40%を占めており、スケールするほど利益率が圧迫される構造になっていた。ユーザー数が増えれば増えるほど赤字体質に近づくという、SaaSとして致命的な逆スケール構造だ。単一モデルへの依存から抜け出せず、ワークロードごとにモデルを使い分けることもできなかった。さらに平均レスポンスタイム850ミリ秒という遅延が、ライブ面接中の不自然な間を生み出し、候補者体験を損ねていた。

ベンチャー資金による成長目標を達成するには、このコスト構造を根本から変える必要があった。

7フェーズの移行フレームワーク

InterWizはAWSパートナーネットワーク（APN）メンバーであるEmumba（AWSアドバンスドティアサービスパートナー、AWS Generative AI Services Competency保有）に移行を依頼した。EmumbaはAWS資金プログラム（POCクレジット、Well-Architectedレビュー）の活用や、AWSテクニカルチームとの連携も担った。

移行は以下の7フェーズで構成される体系的なフレームワークに沿って進められた：

情報収集
候補モデルの選定
プロンプト最適化
モデル評価
比較・選定
移行
最適化

全体の期間は3ヶ月。Month 1でモデル評価とアーキテクチャ設計、Month 2で低リスクモジュールの段階的展開、Month 3で全移行と最適化を完了している。

「機能ごとに最適なモデルを割り当てる」設計

移行の核心は、すべてのワークロードを単一モデルで処理するのをやめ、機能ごとに最適なモデルを選択するアーキテクチャへの転換だ。

質問生成（推論・創造性が重要）→ Anthropic Claude 3.5 Sonnet
リアルタイム面接・文脈的追加質問・候補者評価（低レイテンシ・コスト効率が重要）→ Meta LLaMA 3.3 70B

Amazon Bedrockは複数のファウンデーションモデル（FM）を単一APIで利用できるマネージドサービスで、このマルチモデル構成を実現する基盤になった。

GPT-4 TurboからAnthropicおよびMetaのモデルへの移行では、プロンプトの互換性問題が発生した。各モデルは異なる指示パターンに従うため、EmumbaのチームはAmazon Bedrockのプロンプト最適化ツールを使ってプロンプトを書き直した。具体的には以下の2機能を活用している：

プロンプトキャッシング：コストを最大90%、レイテンシを最大85%削減可能
**Amazon Bedrock Intelligent Prompt Routing**：リクエストを最もコスト効率の高いFMに自動ルーティングすることでコストを最大30%削減

品質担保にはLLM-as-a-judgeアプローチを採用。FMが出力を定義されたルーブリックに照らしてスコアリングし、各モジュールを本番環境に移す前にベースラインを満たすことを確認した。

結果：3つの数字

90日間の本番環境での計測値：

指標	移行前	移行後	改善率
AIコスト（1面接あたり）	$0.25	$0.025	-90%
平均レスポンスタイム	850ms	450ms	-55%
稼働率	—	99.9%	—

コスト削減の試算では、月間面接数が現在の1,000件から2026年末の予測値10,000件にスケールした場合、年間$27,000の節約になるとされている。ただし、1面接あたり$0.225の削減×10,000件で計算すると月間$2,250の削減となり、年換算では$27,000に相当する。元記事の記述はこの年間換算値を指しているものと解釈される。

InterWiz CEOのZishan Iqbal氏はコメントを寄せている：

「Amazon Bedrockへのマイグレーションは複雑な取り組みだったが、EmumbaのAWS CoEチームは精度と技術的な深みをもって対応してくれた。抽象化レイヤーの構築、プロンプトチューニング、展開リスク管理を徹底したことで、中断は一切なく、改善だけが積み重なった。新しい構成はより速く、安く、はるかにスケーラブルだ。」

なお、元記事のCEOコメント原文では「Azure OpenAI」からの移行と記述されているが、本文の他箇所ではGPT-4 Turbo（OpenAI API）からの移行として説明されている。Azure OpenAI ServiceはMicrosoft AzureからOpenAIのモデルを利用する形態であり、技術的には同一モデルをAzure経由で利用していた可能性がある。元記事内で統一した説明がないため、詳細は元記事および関連ドキュメントを参照されたい。

マルチモデル設計がもたらす構造的な優位性

単一プロバイダーへのロックインを解消したことで、InterWizはAWSがAmazon Bedrockに新しいFMを追加した際、数ヶ月ではなく数日以内に評価・統合できる体制になった。

現在Amazon Bedrockで利用可能なモデルには、Anthropic Claude、Meta LLaMA、Amazon Nova、Amazon Titan、Cohere Commandなどが含まれる。

コンプライアンス面では、Amazon BedrockはSOC 1/2/3、HIPAA適格サービスであり、GDPRのデータレジデンシー要件にも対応している。

詳細はHow InterWiz reduced AI costs by 90% with Amazon Bedrockを参照していただきたい。