7月2日、Ai2が「FlexMoREを使ってデンマーク国家AIプロジェクトが機密データを共有せずに専門知識を統合する方法」と題した記事を公開した。この記事では、デンマークの国家AIプロジェクトがFlexOlmoをベースに機密データを共有せずに専門モジュールを統合するLLMアーキテクチャ「FlexMoRE」を開発した経緯について詳しく紹介されている。
「データを出さずに知識を合算する」という課題
LLMの学習には大量のデータが必要だが、医療機関や公共機関が持つ最も有用なデータは、規制や守秘義務のために外部に出せない。デンマークの国家プロジェクトDanish Foundation Models(DFM)はこの矛盾に正面から向き合っている。
DFMは、デンマーク語のオープンな言語モデルを開発するプロジェクトで、EU AI ActおよびGDPRに準拠した形でコーパス、評価基盤、モデルをすべてオープンに提供することを目標としている。参加機関は病院、大学、公共機関、中小企業など、まさにデータを外部共有できない組織ばかりだ。
DFMがこの問題の解決策として採用したのが、Ai2が公開したFlexOlmo——異なるチームがそれぞれのデータで独立してモジュール(エキスパート)を訓練し、データを共有せずにモデルを統合できるMixture-of-Experts(MoE)フレームワーク——だった。
FlexMoRE:ローランクアダプタ(LoRA)で1/3以下のパラメータへ
FlexMoREが達成したパラメータ数1/3以下への削減という数値は、Ai2の記事中でFlexOlmoスタイル(フルサイズエキスパートのみ)との直接比較として示されているベンチマーク結果に基づく。具体的には、複数の評価カテゴリにまたがるスコア比較において、FlexMoREが大幅に少ないパラメータ数でFlexOlmoと同等以上の性能を維持していることが確認されている。
FlexMoREの核心は、ほとんどのエキスパートをフルサイズのまま保持せず、「ローランクアダプタ(LoRA: Low-Rank Adaptation)」と呼ばれる軽量な近似表現に置き換えるという発想にある。LoRAはもともとLLMのファインチューニングを効率化するために提案された手法で(Hu et al., 2021)、フルサイズのモデルが学習した内容を、はるかに少ないパラメータ数で近似する。「ランク」という値でその表現力の大きさを調整できる点が特徴だ。FlexMoREはこのLoRAをMoEのエキスパート表現に適用することで、モデル全体のメモリ・パラメータ要求量を大幅に圧縮した。
FlexOlmoの構造とDFMが直面したスケール問題
FlexOlmoはMoEアーキテクチャを採用している。入力テキストの各トークン(単語の一部など小さなテキスト単位)をルーターが判断し、法律文書ならば法律テキストで訓練されたエキスパートへ、コードならばコード専門のエキスパートへと振り分ける仕組みだ。推論時には選ばれたエキスパートだけが動作するため、全体のサイズが大きくても計算コストを抑えられる。
しかしDFMは実運用上の問題に直面した。FlexOlmoでは各エキスパートがフルサイズのスタンドアロンモデルと同等の大きさを持つため、参加機関が増えてエキスパート数が増えるほどモデル全体が肥大化し、DFMのパートナーが利用できる一般的なマシンでは動かせなくなる。
FlexMoREはこの問題に直接対処する形で設計されており、南デンマーク大学(SDU)のOdenseNLPラボとOrdbogen A/Sの研究者チームが開発した。
チームが発見した重要な知見は、タスクの種類によって最適なLoRAのランクが異なるという点だ:
- 推論タスク(多段階の数学問題など)→ 高いランクが必要
- 知識タスク(学習済みの事実を引き出す)→ 低いランクで十分
この使い分けにより、FlexMoREはFlexOlmoスタイルと比較して、パラメータ数を1/3以下に削減しながらほぼ全カテゴリでパフォーマンスを維持、またはそれ以上を達成した。
OdenseNLPラボの研究者Jacob Nielsenは次のように述べている。
「FlexMoREはFlexOlmoのメモリ要求を大幅に削減しながら、ほぼすべてのカテゴリでパフォーマンスを維持し、より幅広い層がモジュラーモデルの恩恵を受けられるようにする」
Ai2による関連研究:EMOとBAR
FlexMoREはDFMプロジェクト側の独自研究だが、FlexOlmoを公開したAi2自身もモジュラー訓練の方向性での研究を継続している。Ai2の記事ではその関連研究としてEMOとBARが補足的に紹介されている。
FlexOlmoには「エキスパートの専門領域を訓練前に定義しなければならない」という制約があったが、EMOはこれを取り除き、エキスパートが訓練の過程で自律的にトピック専門性を獲得できるようにする。
BARはモジュール化をプレトレーニング後の段階(指示追従、推論、ツール呼び出し、安全拒否などの後処理フェーズ)にまで拡張する。通常のパイプラインではこれらの能力が混ざり合って調整が困難だが、BARは各能力に独立した後処理パイプラインを与える。
FlexOlmoの共著者でUC BerkeleyおよびAi2の研究者Sewon Minは次のように述べている。
「フロンティアモデルの訓練・デプロイコストが増大するなか、こうした解決策はAIの恩恵が一部に集中しないよう担保するうえでさらに重要になる」
分散・連合訓練(Federated Learning的アプローチ)とLLMの組み合わせは、プライバシー規制の厳しい医療・法務・公共分野での実用性という観点から注目を集めている。FlexMoREはその具体的な実装例として技術的な完成度が高い。
なお、FlexMoREはDFMプロジェクト下の南デンマーク大学とOrdbogen A/Sの研究者が独自に開発したもので、Ai2はこの研究に資金提供も機関的関与もしていない。
詳細はFlexMoREに関するAi2公式ブログ記事を参照していただきたい。