6月13日、Engineering at Metaで「Metaにおける大規模AI能力の維持(Maintaining large-scale AI capacity at Meta)」と題した記事が公開された。この記事では、Metaがどのようにして大規模なAIトレーニングインフラを維持しているかについて詳しく紹介されている。
以下に、その内容を簡潔にまとめて紹介する。

Metaは現在、世界中にGPUトレーニングクラスターを備えた多数のデータセンターを運営している。これらのデータセンターは、コンピュートとストレージのスケーリング要求をサポートするように設計されている。AIの台頭に伴い、Metaはそのフリートを変革する必要があると認識し、大規模なトレーニングインフラの構築を進めてきた。現在、Metaのトレーニングインフラは600,000台のGPUにスケールする計画であり、毎日数千のトレーニングジョブが実行されている。
以下は、MetaのGPUトレーニングの主な特徴である。
- キャパシティ保証: 多くのトレーニングジョブは中断できないため、大量のキャパシティを確保する必要がある。
- 悪いホストは非常に悪い: ジョブが同期を必要とするため、わずかなハードウェアの問題やネットワークの問題が大きな影響を与える。
- 低中断率: 多くのホストが共同で作業するため、AIトレーニングジョブは中断に敏感である。
- ロールアウトの安全性: AIソフトウェアスタックは深く、問題の特定が難しいため、新しいコンポーネントの導入には慎重を要する。
- ホストの一貫性: クラスタの一貫性はデバッグと重大エラーの回避に重要である。
MetaのGPUトレーニングには以下の特別な点がある。
- 最先端のトレーニングハードウェアと高性能バックエンドネットワークの使用
- 柔軟なソフトウェアスタックの維持
- 30以上の保守操作と50以上のコンポーネントの更新
- 数千のAIホストタスクの安全な実行
これに加え、Metaはメンテナンストレインと呼ばれる手法を用いてクラスターの保守を行っている。メンテナンストレインは、小規模なサーバー群を停止し、適用可能なすべてのアップグレードを実施する。この手法により、24/7のキャパシティ予測性を提供し、オンラインおよび定期的なトレーニングのためのキャパシティを保証する。
さらに、MetaはOpsPlannerという作業オーケストレータを使用して、計画されたメンテナンスや障害のバッファを一元管理し、安全かつ効率的にアップグレードを実施している。OpsPlannerは毎日百万件の操作を処理し、ホストの一貫性を維持するための重要な役割を果たしている。
Metaはまた、安全と失敗シナリオに対応するための深いスタックの安全機能を備えている。これには、メンテナンストレインの自動停止や失敗したアップグレードの自動オフボーディング、グローバルシステムに到達する前の変更のテストなどが含まれる。
最後に、Metaは急速に変化する生成AIの未来に向けて前進している。迅速なイノベーションと実践を重視し、今後も生成AIのリーダーとして技術の革新を続けることを目指している。
詳細はMaintaining large-scale AI capacity at Metaを参照していただきたい。