4月16日、Cloudflareが「AI Gateway's next evolution: an inference layer designed for agents」と題した記事を公開した。同社がAIエージェント向けの統合推論レイヤーを構築し、12以上のプロバイダーから70以上のモデルに単一APIでアクセスできる新機能を発表している。
1行のコード変更で70+モデルを切り替え
Cloudflareの新機能では、12以上のプロバイダーから70以上のモデルに単一APIでアクセスできる。既存のAI.run()バインディングを使って、OpenAI、Anthropic、Google、Alibaba Cloudなどのサードパーティモデルを呼び出せ、プロバイダー間の切り替えは1行のコード変更で完了する。
const response = await env.AI.run('anthropic/claude-opus-4-6',{
input: 'What is Cloudflare?',
}, {
gateway: { id: "default" },
});
対応プロバイダーには、Alibaba Cloud、AssemblyAI、Bytedance、Google、InWorld、MiniMax、OpenAI、Pixverse、Recraft、Runway、Viduが含まれ、画像、動画、音声モデルも提供される。
エージェント時代の複数モデル管理課題
AIエージェントの普及により、複数モデルの使い分けが前提となっている。企業は平均3.5のモデルを利用しており、カスタマーサポートエージェントでは、メッセージ分類に高速で安価なモデル、行動計画に大型推論モデル、タスク実行に軽量モデルを使い分ける。
シンプルなチャットボットと異なり、エージェントは単一タスクで10回の推論呼び出しを連鎖させる。遅いプロバイダーが50msではなく500ms追加し、1つの失敗は下流の連鎖的障害を引き起こす。この課題は、LangChainやAutoGenなどのエージェントフレームワークが普及する中で深刻化している。
AI支出の一元管理とメタデータ追跡
複数プロバイダーを利用する企業にとって、AI支出の一箇所での監視・管理は重要だ。AI Gatewayでは、カスタムメタデータを含めることで、無料vs有料ユーザー、個別顧客、特定ワークフローなどの属性別費用内訳を取得できる。
const response = await env.AI.run('@cf/moonshotai/kimi-k2.5',
{
prompt: 'What is AI Gateway?'
},
{
metadata: { "teamId": "AI", "userId": 12345 }
}
);
最初のトークンまでの時間最適化
ライブエージェント構築では、最初のトークンまでの時間がユーザー体験を決定する。全推論が3秒でも、最初のトークンが50ms早ければ機敏さの印象が変わる。
Cloudflareの世界330都市のデータセンターネットワークにより、ユーザーと推論エンドポイントの両方に近い位置からアクセスし、ストリーミング開始前のネットワーク時間を最小化する。Cloudflareでホストされるモデルなら、コードと推論が同じグローバルネットワーク上で動作し可能な限り低レイテンシを実現する。
自動フェイルオーバーと独自モデル対応
エージェントワークフローでは各ステップが依存するため信頼性が重要だ。複数プロバイダーで利用可能なモデルで、1つがダウンした場合、AI Gatewayは自動的に別プロバイダーにルーティングする。独自のフェイルオーバーロジック実装は不要だ。
さらに、ReplicateのCog技術を活用して**独自モデルをWorkers AI**に持ち込む機能も開発中だ。cog.yamlファイルで依存関係を定義し、Pythonファイルで推論コードを書くだけで、CUDA依存関係やバージョン管理などの複雑な作業がCogにより抽象化される。
Replicate統合で拡張
Replicateチームが正式にCloudflareのAI Platformチームに参加し、すべてのReplicateモデルをAI Gatewayに統合中だ。近く、ReplicateのモデルをAI Gateway経由で、ReplicateにデプロイしたモデルをWorkers AI上でアクセスできるようになる。
詳細はAI Gateway's next evolution: an inference layer designed for agentsを参照していただきたい。