7月3日、AWSが「How InterWiz reduced AI costs by 90% with Amazon Bedrock」と題した記事を公開した。AI採用支援SaaS企業InterWizがAmazon Bedrockへの移行によってAIコストを90%削減した事例を詳しく紹介している。注目すべきはコスト削減の数字そのものだけでなく、1面接あたりのコストが収益の40%を食い潰していた構造が変わったことで、スケールへの投資判断が根本から変わった点にある。
GPT-4 Turboへの依存が収益構造そのものを歪めていた
InterWizはAI駆動の採用支援企業で、月間1,000件以上の採用面接を自動化している。候補者への文脈に沿った追加質問、深掘りのプローブ、総合評価レポートの生成まで、一連の面接プロセスをAIが担う仕組みだ。
問題はコスト構造だった。GPT-4 Turboを使用していた当時、1面接あたりのAIコストは$0.25。これが1面接あたりの収益の40%を占めており、スケールするほど利益率が圧迫される構造になっていた。ユーザー数が増えれば増えるほど赤字体質に近づくという、SaaSとして致命的な逆スケール構造だ。単一モデルへの依存から抜け出せず、ワークロードごとにモデルを使い分けることもできなかった。さらに平均レスポンスタイム850ミリ秒という遅延が、ライブ面接中の不自然な間を生み出し、候補者体験を損ねていた。
ベンチャー資金による成長目標を達成するには、このコスト構造を根本から変える必要があった。
7フェーズの移行フレームワーク
InterWizはAWSパートナーネットワーク(APN)メンバーであるEmumba(AWSアドバンスドティアサービスパートナー、AWS Generative AI Services Competency保有)に移行を依頼した。EmumbaはAWS資金プログラム(POCクレジット、Well-Architectedレビュー)の活用や、AWSテクニカルチームとの連携も担った。
移行は以下の7フェーズで構成される体系的なフレームワークに沿って進められた:
- 情報収集
- 候補モデルの選定
- プロンプト最適化
- モデル評価
- 比較・選定
- 移行
- 最適化
全体の期間は3ヶ月。Month 1でモデル評価とアーキテクチャ設計、Month 2で低リスクモジュールの段階的展開、Month 3で全移行と最適化を完了している。
「機能ごとに最適なモデルを割り当てる」設計
移行の核心は、すべてのワークロードを単一モデルで処理するのをやめ、機能ごとに最適なモデルを選択するアーキテクチャへの転換だ。
- 質問生成(推論・創造性が重要)→ Anthropic Claude 3.5 Sonnet
- リアルタイム面接・文脈的追加質問・候補者評価(低レイテンシ・コスト効率が重要)→ Meta LLaMA 3.3 70B
Amazon Bedrockは複数のファウンデーションモデル(FM)を単一APIで利用できるマネージドサービスで、このマルチモデル構成を実現する基盤になった。
GPT-4 TurboからAnthropicおよびMetaのモデルへの移行では、プロンプトの互換性問題が発生した。各モデルは異なる指示パターンに従うため、EmumbaのチームはAmazon Bedrockのプロンプト最適化ツールを使ってプロンプトを書き直した。具体的には以下の2機能を活用している:
- プロンプトキャッシング:コストを最大90%、レイテンシを最大85%削減可能
- **Amazon Bedrock Intelligent Prompt Routing**:リクエストを最もコスト効率の高いFMに自動ルーティングすることでコストを最大30%削減
品質担保にはLLM-as-a-judgeアプローチを採用。FMが出力を定義されたルーブリックに照らしてスコアリングし、各モジュールを本番環境に移す前にベースラインを満たすことを確認した。
結果:3つの数字
90日間の本番環境での計測値:
| 指標 | 移行前 | 移行後 | 改善率 |
|---|---|---|---|
| AIコスト(1面接あたり) | $0.25 | $0.025 | -90% |
| 平均レスポンスタイム | 850ms | 450ms | -55% |
| 稼働率 | — | 99.9% | — |
コスト削減の試算では、月間面接数が現在の1,000件から2026年末の予測値10,000件にスケールした場合、年間$27,000の節約になるとされている。ただし、1面接あたり$0.225の削減×10,000件で計算すると月間$2,250の削減となり、年換算では$27,000に相当する。元記事の記述はこの年間換算値を指しているものと解釈される。
InterWiz CEOのZishan Iqbal氏はコメントを寄せている:
「Amazon Bedrockへのマイグレーションは複雑な取り組みだったが、EmumbaのAWS CoEチームは精度と技術的な深みをもって対応してくれた。抽象化レイヤーの構築、プロンプトチューニング、展開リスク管理を徹底したことで、中断は一切なく、改善だけが積み重なった。新しい構成はより速く、安く、はるかにスケーラブルだ。」
なお、元記事のCEOコメント原文では「Azure OpenAI」からの移行と記述されているが、本文の他箇所ではGPT-4 Turbo(OpenAI API)からの移行として説明されている。Azure OpenAI ServiceはMicrosoft AzureからOpenAIのモデルを利用する形態であり、技術的には同一モデルをAzure経由で利用していた可能性がある。元記事内で統一した説明がないため、詳細は元記事および関連ドキュメントを参照されたい。
マルチモデル設計がもたらす構造的な優位性
単一プロバイダーへのロックインを解消したことで、InterWizはAWSがAmazon Bedrockに新しいFMを追加した際、数ヶ月ではなく数日以内に評価・統合できる体制になった。
現在Amazon Bedrockで利用可能なモデルには、Anthropic Claude、Meta LLaMA、Amazon Nova、Amazon Titan、Cohere Commandなどが含まれる。
コンプライアンス面では、Amazon BedrockはSOC 1/2/3、HIPAA適格サービスであり、GDPRのデータレジデンシー要件にも対応している。
詳細はHow InterWiz reduced AI costs by 90% with Amazon Bedrockを参照していただきたい。