Together AIがOpenAIのクローズドAPIに依存しない「OSS特化クラウド」で8億ドル調達 — 推論速度400%向上の独自エンジンで5年後に容量50倍へ

7月1日、SiliconAngleが「Together AI raises $800M to grow its AI-optimized public cloud」と題した記事を公開した。オープンソースAIモデルの推論・学習に特化したクラウドプラットフォームを運営するTogether AIが総額8億ドルの資金調達を完了したことを伝えている。独自推論エンジン「ATLAS」による最大400%の高速化と、5年間でクラウド容量を50倍に拡大する計画が注目点だ。

83億ドル評価額でシリーズCを完了

Today AIは、シリーズCラウンドをサウジアラムコ系のAramco Venturesが主導する形で完了した。NvidiaやVista Equity Partners、General Catalystなど複数の機関投資家も参加している。調達後の評価額は83億ドルとなった。

同社は直近の第2四半期において、年間予約受注額（Annual Bookings）が11.5億ドルを超えたとも公表している。顧客にはLGのAI研究所、Cohere、Mozillaファウンデーションなど数千の組織が含まれる。

技術の核心：ATLAS×スペキュラティブデコーディング

Together AIのプラットフォームの差別化要因として元記事が強調するのが、独自ソフトウェアエンジン「ATLAS」だ。ATLASが採用する「スペキュラティブデコーディング」という技術が、推論速度の面でひとつのポイントになっている。

スペキュラティブデコーディングとは、メインのAIモデルに加えて軽量なサブモデルを組み合わせる手法だ。ユーザーがプロンプトを入力すると、まず軽量モデルが素早くドラフト応答を生成し、メインモデルがそれを検証・修正して最終出力を返す。メインモデルが最初から全出力を生成するよりも大幅に高速化できる。

一般的にスペキュラティブデコーディングの軽量モデルは固定設定で動作するため、ユーザーの利用パターンが変化すると精度が落ちていく問題がある。ATLASはこの問題に対し、軽量モデルをユーザー要件の変化に合わせて自動適応させる仕組みを組み込んでいる。同社によれば、一部の推論ワークロードで最大400%の高速化を実現するという。

クローズドなモデルAPIに依存しないOSSクラウドという市場においては、AWS・Google Cloud・Azureといった汎用クラウドに加え、CoreWeaveやLambda Labsなど独立系GPU特化クラウドとの競合も意識される。ATLASによる推論最適化は、汎用GPUクラウドとの差別化において同社が重点的に訴求するポイントとなっている。

4種類の推論サービスと学習クラスター

Together AIが提供する推論サービスは4種類ある。

サーバーレス推論：GPUやネットワーク機器の設定が不要。同社は「最速の競合比で約2倍のパフォーマンス」と主張している。
専有インフラ（2種）：サーバーレスより高い信頼性保証とカスタマイズ性を提供。
バッチ推論：即時応答が不要なワークロード向けにコスト最適化。通常比で最大50%のコスト削減を謳う。

また、ファインチューニング向けに数千GPUの学習クラスターも提供している。クラスターの管理にはKubernetesと、より高度なカスタマイズが可能なSlurmの両方に対応する。AIの学習中に発生しがちなGPU障害についても、自動検知・自動修復ソフトウェアをクラスターに組み込んでいる。

今後：5年でインフラを50倍に拡張

調達した資金は主にインフラ増強に充てられ、今後5年間でパブリッククラウドの容量を50倍に拡大する計画だ。学習・推論機能の強化も並行して進める方針が示された。

クローズドなモデルのAPIに依存せずオープンソースモデルを自社インフラで運用したいという需要が高まるなか、Together AIのような「OSS特化クラウド」の存在感が増している。NvidiaがGPU供給と並行して有力AIインフラ企業への投資家として参加している点は、同社のインフラ調達力を裏付ける材料として元記事でも言及されている。

詳細はTogether AI raises $800M to grow its AI-optimized public cloudを参照していただきたい。