CloudflareがAI統合推論レイヤーを発表 — 70+モデルを単一APIで管理、エージェント時代の複数プロバイダー問題を解決

4月16日、Cloudflareが「AI Gateway's next evolution: an inference layer designed for agents」と題した記事を公開した。同社がAIエージェント向けの統合推論レイヤーを構築し、12以上のプロバイダーから70以上のモデルに単一APIでアクセスできる新機能を発表している。

1行のコード変更で70+モデルを切り替え

Cloudflareの新機能では、12以上のプロバイダーから70以上のモデルに単一APIでアクセスできる。既存のAI.run()バインディングを使って、OpenAI、Anthropic、Google、Alibaba Cloudなどのサードパーティモデルを呼び出せ、プロバイダー間の切り替えは1行のコード変更で完了する。

const response = await env.AI.run('anthropic/claude-opus-4-6',{
  input: 'What is Cloudflare?',
}, {
  gateway: { id: "default" },
});

対応プロバイダーには、Alibaba Cloud、AssemblyAI、Bytedance、Google、InWorld、MiniMax、OpenAI、Pixverse、Recraft、Runway、Viduが含まれ、画像、動画、音声モデルも提供される。

エージェント時代の複数モデル管理課題

AIエージェントの普及により、複数モデルの使い分けが前提となっている。企業は平均3.5のモデルを利用しており、カスタマーサポートエージェントでは、メッセージ分類に高速で安価なモデル、行動計画に大型推論モデル、タスク実行に軽量モデルを使い分ける。

シンプルなチャットボットと異なり、エージェントは単一タスクで10回の推論呼び出しを連鎖させる。遅いプロバイダーが50msではなく500ms追加し、1つの失敗は下流の連鎖的障害を引き起こす。この課題は、LangChainやAutoGenなどのエージェントフレームワークが普及する中で深刻化している。

AI支出の一元管理とメタデータ追跡

複数プロバイダーを利用する企業にとって、AI支出の一箇所での監視・管理は重要だ。AI Gatewayでは、カスタムメタデータを含めることで、無料vs有料ユーザー、個別顧客、特定ワークフローなどの属性別費用内訳を取得できる。

const response = await env.AI.run('@cf/moonshotai/kimi-k2.5',
  {
    prompt: 'What is AI Gateway?'
  },
  {
    metadata: { "teamId": "AI", "userId": 12345 }
  }
);

最初のトークンまでの時間最適化

ライブエージェント構築では、最初のトークンまでの時間がユーザー体験を決定する。全推論が3秒でも、最初のトークンが50ms早ければ機敏さの印象が変わる。

Cloudflareの世界330都市のデータセンターネットワークにより、ユーザーと推論エンドポイントの両方に近い位置からアクセスし、ストリーミング開始前のネットワーク時間を最小化する。Cloudflareでホストされるモデルなら、コードと推論が同じグローバルネットワーク上で動作し可能な限り低レイテンシを実現する。

自動フェイルオーバーと独自モデル対応

エージェントワークフローでは各ステップが依存するため信頼性が重要だ。複数プロバイダーで利用可能なモデルで、1つがダウンした場合、AI Gatewayは自動的に別プロバイダーにルーティングする。独自のフェイルオーバーロジック実装は不要だ。

さらに、ReplicateのCog技術を活用して**独自モデルをWorkers AI**に持ち込む機能も開発中だ。cog.yamlファイルで依存関係を定義し、Pythonファイルで推論コードを書くだけで、CUDA依存関係やバージョン管理などの複雑な作業がCogにより抽象化される。

Replicate統合で拡張

Replicateチームが正式にCloudflareのAI Platformチームに参加し、すべてのReplicateモデルをAI Gatewayに統合中だ。近く、ReplicateのモデルをAI Gateway経由で、ReplicateにデプロイしたモデルをWorkers AI上でアクセスできるようになる。

詳細はAI Gateway's next evolution: an inference layer designed for agentsを参照していただきたい。