【海外記事紹介】新規Webサイトの35%がAI生成に — スタンフォード大学が3年間のインターネット変化を定量調査、従来懸念の多くは杞憂と判明

4月27日、Matthew Gaultが「Study Finds A Third of New Websites are AI-Generated」と題した記事を公開した。この記事では、2022年以降に作成されたウェブサイトの3分の1がAI生成であることがスタンフォード大学らの調査で判明したことについて詳しく紹介されている。以下に、その内容を紹介する。

わずか3年でWebの35%がAI化 — 驚異的な変化速度

スタンフォード大学、インペリアル・カレッジ・ロンドン、インターネットアーカイブの研究者らが、**インターネットアーカイブのデータを用いた大規模調査**を実施した。その結果、2022年以降に作成されたウェブサイトの3分の1がAI生成であることが判明した。

研究チームは論文「The Impact of AI-Generated Text on the Internet」を発表し、ChatGPTがリリースされた2022年後半以前はゼロだったAI生成サイトが、**2025年半ばには新規公開サイトの約35%**に達すると報告している。

「AIによるウェブの乗っ取りの速度は驚異的だ」と、スタンフォード大学のAI研究者で論文共著者のJonáš Doležal氏は述べている。「数十年かけて人間が形作ってきたインターネットの重要な部分が、わずか3年でAIによって定義されるようになった」。

ChatGPTブーム以降のWeb品質懸念を科学的に検証

ChatGPTの登場以降、AI生成コンテンツがWebの品質を劣化させるのではないかという懸念が広がっている。SEOスパム、低品質な記事の量産、検索結果の汚染など、様々な問題が指摘されてきた。こうした状況を受け、研究チームは「Dead Internet Theory」—インターネットの多くがボット同士の会話になっているという陰謀論的仮説—からインスピレーションを得て、実際の影響を定量的に調査した。

調査手法は以下の通りだ：

2022年8月から2025年5月までの33ヶ月間のウェブサイトサンプルをインターネットアーカイブから取得
Wayback MachineのCDX Server APIを使用して最古のアーカイブスナップショットを取得
AI検出ソフトウェア「Pangram v3」を使用してAI生成サイトを特定（GPT検出器、ZeroGPT、Originality.aiなど複数のツールをテストした結果、最も検出率が高かった）

AI検出技術は現在も発展途上の分野で、完璧ではないものの、大規模データセットでの傾向分析には十分な精度を持つとされている。

6つの懸念を検証 — 意外にも大半は杞憂

研究チームは、AI生成テキストに対する一般的な批判を6つの仮説として検証した：

視点の多様性が失われるのか？
偽情報が増加するのか？
オンライン文章がより楽観的になるのか？
情報源の引用が不十分になるのか？
意味密度の低い文章が増えるのか？
独特な声が消失し、画一的なスタイルになるのか？

驚くべきことに、6つの仮説のうち確認されたのは2つだけだった。AIは確かにインターネットの意味的多様性を減少させ、全体的により前向きなものにしているが、嘘の拡散や情報源の削除は引き起こしていなかった。

「偽情報増加」は確認されず — むしろ情報源引用は維持

「最も驚きの結果は、Truth Decay仮説が確認されなかったことだ」とDoležal氏は語る。「我々は検証可能な虚偽の陳述の増加を特に調べたが、それは見つからなかった。ただし、AIが検証不可能な主張の量を静かに増やしている可能性や、そもそもインターネットが特に真実に忠実な場所ではなかったという可能性もある」。

事実確認のため、研究チームは選択したウェブサイトから事実に基づく主張を抽出し、人間のファクトチェッカーに検証を依頼した。また、AIが情報源を引用しているかを調べるため、AI生成テキストのアウトバウンドリンク密度も計算した。

この結果は、Google検索品質への懸念や、学術界でのAI生成論文問題とは異なる側面を示している。実際、Googleは2024年から「Helpful Content Update」を通じてAI生成コンテンツの品質管理を強化しているが、少なくとも一般的なWebサイトレベルでは、AI生成コンテンツが直ちに偽情報の温床となるわけではないようだ。

真の課題は「多様性の減少」— 創造性への影響

一方で、意味的多様性の減少は深刻な問題として浮上した。AIモデルの訓練データや生成パターンの均質化により、Web上の表現や視点が画一化される傾向が確認された。これは「Model Collapse」と呼ばれる現象にも関連しており、AI生成データでAIを訓練し続けることで起こる品質劣化の問題とも重なる。

「AI生成コンテンツが広がる中で、これらのモデルが単に消毒され反復的なウェブをもたらすだけでなく、有用で生産的な役割を見つけることが課題だ」とDoležal氏は指摘する。「モデルを完全に従順で同調的にするのではなく、より独特な個性や『摩擦』を持たせることで、人間の声の代替品ではなく創造的なパートナーとして機能するかもしれない」。

継続監視システムの構築へ

研究チームは今後もAI生成テキストがインターネットに与える影響を研究し続ける予定だ。論文共著者でスタンフォード大学の学生研究者Maty Bohacek氏は「現在、インターネットアーカイブと協力して、これを継続的なツールに発展させている。単発の固定スナップショットではなく、今後も継続的にシグナルを提供するものにしたい」と述べている。

この研究は、急速に変化するインターネット環境の実態を定量的に明らかにした重要な取り組みである。AI時代のWeb品質管理や、プラットフォーム運営者・コンテンツ制作者にとって重要な示唆を提供している。従来の懸念の多くは杞憂だったものの、多様性の維持という新たな課題への対応が求められそうだ。

詳細はStudy Finds A Third of New Websites are AI-Generatedを参照していただきたい。