5月15日、Samantha Cole(Sam Cole)が「ArXiv to Ban Researchers for a Year if They Submit AI Slop」と題した記事を公開した。
arXivが厳格な「AI slop」対策を導入
世界最大の学術論文プレプリント・リポジトリであるarXiv(アーカイブ)が、明らかにAI生成された低品質な論文を投稿した著者に対して1年間の投稿禁止処分を科すことを発表した。年間20万件以上の論文が投稿されるarXivにとって、これは前例のない厳格措置である。
木曜日の夜、arXivのコンピューターサイエンス部門の責任者Thomas Dietterich氏はXへの投稿で次のように述べた:
「生成AIツールが不適切な言語、盗作されたコンテンツ、偏ったコンテンツ、エラー、間違い、不正確な参考文献、誤解を招くコンテンツを生成し、それらの出力が科学的研究に含まれた場合、その責任は著者にある。投稿に著者がLLM生成の結果をチェックしていないという議論の余地のない証拠が含まれている場合、我々はその論文の何も信用できない」
「一発アウト」の厳格ルールと具体的な摘発例
Dietterich氏によると、議論の余地のない証拠の例には以下が含まれる:
- 幻覚による参考文献:存在しない論文や著者名の引用
- LLMによるメタコメント:「ここに200語の要約があります。何か変更をご希望ですか?」「この表のデータは例示的なものです。実験の実際の数値を記入してください」
処罰は1年間のarXiv投稿禁止で、復帰後の投稿には「評判の良い査読付き学術誌での受理証明」が必要となる。これはワンストライク・ルール(一度でも摘発されれば処分対象)だが、決定には異議申し立てが可能だ。
深刻化する「AI slop洪水」の実態
arXivがこのような厳格措置に踏み切った背景には、AI生成論文の急激な増加がある。arXivは2025年11月、AI slopによる「洪水状態」を理由にコンピューターサイエンス分野のレビュー論文とポジション・ペーパーの受付を一時停止していた。
さらに今年1月には、不正投稿の増加により、初回投稿者には既存著者からの推薦が必要になると発表している。これは1991年の設立以来、最も厳格な投稿制限だ。
急増するAI生成偽造引用の統計
AI生成による偽造引用は研究分野で深刻な問題となっている。コロンビア大学研究者による最新研究では、3年間にわたって250万件の生物医学論文を調査し、偽造引用の急激な増加を明らかにしている:
- 2024年初頭:277件に1件が偽造引用を含む
- 2023年:458件に1件
- 2022年:2,828件に1件
この統計は、AI生成による偽造引用が過去3年間で約10倍に急増していることを示している。特にChatGPTなどのLLMが研究者にとって身近になった2023年以降、その伸び率は指数関数的だ。
AI生成の引用や論文は既に査読プロセスに負担をかけており、メタコメントや幻覚データが含まれたまま査読を通過する論文も増加している。
arXivの独立と今後の対策
現在Cornell Techによって管理されているarXivは、今年7月に独立した非営利法人となる予定だ。Cornell Techの学部長兼副学長Greg Morrisett氏はScience.orgに対して、この変更により「AI slop」に対処するために必要な、より幅広いドナーからの資金調達が可能になると述べている。
独立により、arXivは大学の制約を受けずにAI検出技術の導入や専門モデレーターの増員が可能となる。年間運営費約280万ドルのうち、今後はAI対策に相当な予算が割り当てられる見込みだ。
学術界における品質管理の戦いは激しさを増しており、arXivの今回の厳格な処分導入は、AI時代における学術出版の信頼性確保への重要な転換点となりそうだ。
詳細はArXiv to Ban Researchers for a Year if They Submit AI Slopを参照していただきたい。