2024年10月16日、MetaはOpen Compute Project (OCP) Global Summit 2024にて、最新のAIハードウェア設計を発表した。この設計は、AIプラットフォームの新たな展開、最先端のオープンラックデザイン、そして高度なネットワークファブリックやコンポーネントを含んでいる。これらの共有によって、コラボレーションの促進とイノベーションの加速が期待されている。
Metaは、AIモデルの開発を続ける中で、AIワークロードを支えるためにインフラを進化させている。例えば、Metaの最大のモデルであるLlama 3.1 405Bは4050億のパラメータを持ち、16,000台以上のNVIDIA H100 GPUを用いてトレーニングされた。このモデルのトレーニングに必要な計算資源の増大は、AIクラスターの拡張を加速させている。
Catalinaラックの発表
Metaは、新たに発表したAIワークロード向けの高性能ラック「Catalina」をOCPコミュニティに公開した。Catalinaは、NVIDIA Blackwellプラットフォームに基づき、モジュール性と柔軟性に優れた設計となっている。このラックは、最新のNVIDIA GB200 Grace Blackwell Superchipをサポートしており、140kWまでの電力供給が可能である。
Grand TetonプラットフォームのAMD対応
2022年に発表されたGrand Tetonプラットフォームは、AMD Instinct MI300Xをサポートするように拡張され、AI推論ワークロードに対して高い信頼性とスケーラビリティを提供している。この新しい設計は、統合された電力、制御、計算、ファブリックインターフェースを備え、AIクラスターの迅速な展開を可能にする。
新しいDisaggregated Scheduled Fabric(DSF)
Metaは、AIトレーニングクラスター向けに新たなDisaggregated Scheduled Fabric (DSF)を開発した。この新しいネットワークファブリックは、従来のスイッチに比べてスケールや電力密度の制約を克服し、広範なベンダーとの協力により柔軟かつ効率的なシステム設計を可能にする。
詳細はMeta’s open AI hardware visionを参照していただきたい。