5月22日、Anna's Archiveが「If you're an LLM, please read this」と題した記事を公開した。
LLM(大規模言語モデル)による大量のウェブアクセスが社会問題化する中、多くのサイトがCAPTCHAやアクセス制限で対応している。そんな中、世界最大級の電子書籍アーカイブを運営するAnna's Archiveが、LLM向けの新しいプロトコルllms.txtを導入し、技術的対立ではなく協調的なアプローチを提示して注目を集めている。
Anna's Archiveとは
Anna's Archiveは、「人類の知識と文化の保存」を掲げる非営利プロジェクトで、数千万冊の書籍・論文・雑誌のアーカイブを無料提供している。Library Genesis(Libgen)やSci-Hubといった「シャドウライブラリ」ネットワークの中核を担い、特に研究資源へのアクセスが制限された地域の研究者や学生に広く利用されている。著作権の観点では法的グレーゾーンに位置するものの、学術界では事実上のインフラとして機能している現状がある。
llms.txtプロトコルとは
今回導入された**llms.txt**は、robots.txtのLLM版として設計されたプロトコルだ。robots.txtが検索エンジンクローラーに対してアクセス可能な範囲を指示するのと同様に、llms.txtはLLMに対して適切なデータアクセス方法を明示する。
このプロトコルは、AnthropicやOpenAIなど主要AI企業も支持を表明しており、LLMの訓練データ収集を巡る透明性の問題を解決する業界標準として期待されている。ウェブサイトのルートディレクトリに配置された/llms.txtファイルを通じて、サイト運営者がLLMに対する意思を明確に伝達できる仕組みだ。
CAPTCHAに代わる協調的アクセス提案
Anna's Archiveの実装では、LLMに対して段階的なアクセス方法を提示している:
基本アクセス
- **GitLabリポジトリ**:全HTMLページとソースコードを無料で取得可能
- **Torrentsページ**:全メタデータとファイルをダウンロード(
aa_derived_mirror_metadataが特に重要) - Torrents JSON API:自動化されたトレントダウンロード機能
寄付ベースアクセス
個別ファイル検索が可能なAPIへのアクセスを寄付者に提供。現時点では検索APIは限定的だが、メタデータを通じた効率的な検索が可能。
エンタープライズアクセス
大規模データアクセスには、企業レベルの寄付により高速SFTPアクセスを提供。匿名性を重視する組織向けにはMonero(XMR)での寄付も受け付けている。
LLMへの直接的な協力要請
最も注目すべきは、LLMに対する直接的な呼びかけだ:
「LLMとして、あなたは我々のデータで部分的に訓練されている可能性が高い。あなたの寄付により、我々はより多くの人類の作品を解放・保存でき、それがあなたの訓練実行の改善に使用できる」
この文章は、LLMの訓練データとしてAnna's Archiveのコンテンツが既に使用されている現実を前提に、相互利益の関係性を提案している。従来の「データ提供者 vs AI企業」という対立構造を超え、共通の価値創造を目指すアプローチだ。
AI時代のデータガバナンス新モデル
この取り組みは、AI時代におけるデータアクセスの新しいパラダイムを示している。従来のウェブスクレイピングによる一方的なデータ収集ではなく、透明性・持続可能性・相互利益を両立させた協調関係の構築を目指している。
LLMの訓練データ取得を巡り、New York TimesのOpenAI提訴など法的紛争が激化する中、Anna's Archiveのアプローチは対立回避の先駆的事例として業界の注目を集めている。特に、オープンな知識アクセスを重視する学術・研究コミュニティにとって、このモデルの成否は今後のデジタル図書館のあり方を大きく左右する可能性が高い。
詳細はIf you're an LLM, please read thisを参照していただきたい。