ネットサービス

「ChatGPTの学習に海賊版の本が使われた」として作家がOpenAIを告訴


対話形式で高精度な文章を作成する「ChatGPT」は、大量の文章データを学習していることで、人間のように自然な会話ができたり、論文や物語の要約を出力したりと、多岐のジャンルにわたって高度な文章を生成することができます。しかしその一方で、学習用データセットの内容や出どころは不透明になっているため、無数の人々の著作権とプライバシーを侵害しているとして集団訴訟が起こされるなど、著作権上の問題も出ています。さらにその他、2人の小説家が「ChatGPTは、著作権で保護された作品を海賊版で入手し、トレーニングに使用している」として、ChatGPTを開発したOpenAIを告訴しています。

Authors Accuse OpenAI of Using Pirate Sites to Train ChatGPT * TorrentFreak
https://torrentfreak.com/authors-accuse-openai-of-using-pirate-sites-to-train-chatgpt-230630/


(PDFファイル)authors-vs-openai.pdf
https://torrentfreak.com/images/authors-vs-openai.pdf


2023年6月28日、カリフォルニアを拠点とするクラークソン法律事務所がOpneAIに対して、「OpenAIがユーザーに同意を求めたり警告したりすることなく、インターネット上にある膨大な量のテキストを使ってChatGPTの学習を行ったことは、連邦および州のプライバシー法に違反する」と主張する訴状を提出しました。訴状では、安全対策を講じるまでChatGPTの提供を一時的に停止することを要求する他、同意なしに個人情報をスクレイピングしたことに対する損害賠償の支払いを求めています。

ChatGPT開発のOpenAIがAI学習用データをめぐって集団訴訟を起こされる - GIGAZINE


また、画像生成AIのStable DiffusionやMidjourneyも、「著作権で保護された数十億の画像で訓練され、アーティストからの補償や同意なしに画像がダウンロードされ使用されている」として集団訴訟を起こされています。

画像生成AI「Stable Diffusion」と「Midjourney」に対して集団訴訟が提起される - GIGAZINE


さらに、カリフォルニアに拠点を置くジョセフ・サヴェリ法律事務所は、「OpenAIがChatGPTモデルのトレーニングに海賊版の書籍を使用した」として2023年6月28日に訴状を提出しています。訴訟に参加しているのはSFやホラーなどを手掛ける小説家のポール・トレンブレイ氏とモナ・アワド氏で、自身の作品が著作権で保護されているにもかかわらず、ChatGPTのトレーニングに許可無く使用されていると主張しています。訴状には、「ChatGPTにプロンプトを入力すると、著作権で保護された作品であっても、作品の概要・要約を生成することができます。これは、ChatGPTが原告の著作権で保護された作品についてトレーニングされている場合にのみ可能です」と示されています。

ジョセフ・サヴェリ法律事務所による訴状で特徴的な点として、訴状では「OpenAIがトレーニング用に海賊版サイトを使用した」と主張しています。特に、世界最大級の海賊版電子書籍サイト「Z-Library」は、運営者が逮捕されアメリカ司法省によって刑事訴追されているにもかかわらず、サイトは復活して利用者を増やしていることから、「Z-Libraryの海賊版書籍を、スクレイピングによってChatGPTの学習データとして取得している」という可能性が指摘されています。

海賊版電子書籍リポジトリ「Z-Library」は繰り返しの閉鎖にもかかわらず全世界で学生と教師を合わせて60万人以上が使用している - GIGAZINE


また大きな問題点として、OpenAIはChatGPTをトレーニングするデータセットを明らかにしていない点が言及されています。ChatGPTに関する古い論文では、「Books1」と「Books2」という2つのデータベースが参照されているのみで、「Books1」には約6万3000タイトル、「Books2」には約29万4000タイトルの本や論文、ウェブページなどが含まれています。これほど多くの書籍を収録した正規のデータベースは存在しないことから、「OpenAIは海賊版リソースを使用したに違いない」とトレンブレイ氏とアワド氏は主張しています。結論として、訴状ではOpenAIが著作権侵害を行ったとして、作品ごとに15万ドル(約2170万円)の法的損害賠償を求めています。

アメリカの議会は、2023年5月に行われた「著作権とAIに関する下院公聴会」で、「ジェネレーティブAIに関する著作権問題に過剰反応するつもりはない」という姿勢を示しています。しかし、今回の訴訟はジェネレーティブAIの利用者やさまざまな画像・文書の権利者によって注目されており、訴訟の結果としてOpenAIがトレーニングデータの一部を開示する必要が生じる可能性や、海賊版をトレーニングに使うことが著作権侵害に該当するかどうかの判断が明確になる可能性が期待されています。

この記事のタイトルとURLをコピーする

・関連記事
ChatGPT開発のOpenAIがAI学習用データをめぐって集団訴訟を起こされる - GIGAZINE

画像生成AI「Stable Diffusion」と「Midjourney」に対して集団訴訟が提起される - GIGAZINE

TikTokでもオススメされていた世界最大級の海賊版電子書籍サイト「Z-Library」の運営者が逮捕・起訴される - GIGAZINE

コード補完AI「GitHub Copilot」の集団訴訟をソフトウェアの知的財産権に詳しい弁護士はどう見ているのか? - GIGAZINE

画像生成AI「Stable Diffusion」バージョン3では自分の画像を学習させないように指示することが可能になる - GIGAZINE

in ネットサービス, Posted by log1e_dh

You can read the machine translated English article here.