指示文「A detailed oli painting of organic shaped warplane flying sky in Evangelion style」で生成。
作成:清水亮
Twitterなどで「絵を描くAI」として注目を集めている「Midjourney(ミッドジャーニー)」。
AI研究者の筆者・清水亮氏が、最新のAI開発事情の解説を交えながら同ツールを使っていく短期集中企画の後編。
今回は「Midjourneyを使うコツ」として、キーワード以外に画像を読み込ませる方法なども取り上げていきます。
前編:神絵を描くAI「 #Midjourney 」はどうやって生まれたか…その可能性と限界、そして課題
中編:神絵を描くAI「Midjourney」にナントカ風のイラストを描かせてみる…興味深い結果に【使い方・AI比較】
Midjourneyに「画像」を読み込ませて指示する方法
Midjourneyを使いこなすには、Midjourneyを構成する技術の背景を想像して、うまいプロンプト(指示文)を作らなければならない。
Midjourney(ミッドジャーニー)とは:デビッド・ホルツ氏が開発した、コミュニケーションツールDiscord上で指示して絵を描かせる画像生成AIサービス。英語で指示することで、見たこともない幻想的な絵を生成できることから、「神絵を描くAI」として話題になっている。
また、Midjourneyには実はさまざまなオプションがある。このオプションを使うことで自分が欲しい絵の雰囲気を、「言葉ではなくて絵で」教えることもできる。
具体的な例を示そう。たとえば、筆者の自撮りをMidjourneyに与えてみる。
Midjourneyに読み込ませた筆者の写真。想像と違う結果になった。
撮影:清水亮
元絵を与えるには、promptの直後に画像のURLを書く。たとえば下記のような具合だ。
作成:清水亮
この画像をもとに、Midjourneyがどんな画像を生成したか、意外に思われるだろうがこんな画像になる。
筆者の画像を読み込ませて、生成された画像。なんと、生成されたのは「人」ではなかった。
画像作成:清水亮
画像を読み込ませる前の想定では、筆者のような男性が生成されると思ったのだが、意外なことに「段ボール」の方に強く反応してしまった。
画面内に余計な情報があると、そちらに強く反応してしまうようだ。スーツ姿の男性、ということを伝えるためにこの写真を見せてみた。
余計な要素が入らないように、顔を切って、服装だけを見せることにした。
撮影:清水亮
すると結果はこうなった。
興味深いことに、AIには見せなかった顔の部分を生成してきた。
画像作成:清水亮
面白い。あえて顔は出さないでAIに見せたのだが、顔の方を補完してきた。
つまり、モチーフとして与える絵は、あくまでも(言葉と同様に)「情報」を伝えるためのものと考えた方が良さそうだ。
しかしこの映像からは「アジア風」ということも伝わってしまったらしい。肌の色に引っ張られたのかもしれないが、なかなかファッションというのは奥が深いものだ。
これに、たとえば画像と一緒に「a detailed oil painting of western business person.」という言葉を付け加えると、こうなる。
Midjourneyに読み込ませるプロンプトの例。画像のURLのあとに、油彩画風のビジネスパーソンの指示を入れている。
作成:清水亮
「ビジネスパーソン」と画像にある「スーツ」の情報が強調され、西洋風の顔の油彩画になった。
スーツの画像URLに加えて「a detailed oil painting of western business person.」を追加して生成した画像。
画像作成:清水亮
では女性でもいけるだろうか。最後の「person」を「woman」に変えてみた。
先ほどとまったく同じプロンプトの、末尾をWomanに変えた。画像URLのあとに「a detailed oil painting of western business woman.」と書いて生成。
画像作成:清水亮
ちなみに先ほどの写真に添える文章から「business」という単語を抜いて「detailed oil painting of woman」にすると、次のように変わる。
先ほどのプロンプトの指示語から「business」を抜いて生成した画像。ビジネス感が見事に消えている。
画像作成:清水亮
元の写真の少しフォーマルな印象を引き継ぎつつ、見事に女性に変換されている。
Midjourneyのような画像生成AIを使いこなすには、このAIがどのような偏見(バイアス)に基づいてつくられたものかを把握しておく必要がある。背景にあるバイアスが、単語選びや、与える画像選びに大きく影響するからだ。
写真によるヒントを与えることなしに「a detailed oil painting of business person」という単語を与えると、このような画像が出てきた。
画像作成:清水亮
こうすると、Midjourneyは「ビジネスパーソンといえばスーツを着た男性」という偏見を持っていることがよくわかる。
Midjourneyがどんな「教育」を受けてきたか考察する
このAIがどんな「教育」を受けてきたかというバイアスを知るためには、日本にしかないものを見せると把握しやすい。例えば、「カツカレー」だ。
トンカツは日本独自の料理なので、海外のデータセットに入ってないことが多い。
日本固有の料理「カツカレー」をMidjourneyに描かせてみると……。
撮影:清水亮
この写真を見せると、生成される画像は以下のようなものになる。
Midjourneyが「カツカレー」の画像を見て生成してきたもの。なんとなく、日本ではない国の写真という感じがしないだろうか。
画像作成:清水亮
カツとカレーに引っ張られているが、日本よりも中国のデータを多く学習していそうだと推察できる。イメージ的には中国にある日本料理店みたいな印象だ。
日本のデータをメインに学習させていれば、トンカツは必ずでてくるはず。だが、この生成された画像には、ハッキリと「トンカツ」とわかるものはない。
ちなみに、「知っている芸能人や政治家をすぐに可視化できるか」でもバイアスを探ることができる。
画家風のタッチで描かせてみる
では、画家はどの程度知られているだろうか。
これまでのCLIPでは、「ダリ」や「ピカソ」「岡本太郎」などの大御所芸術家は認識することが知られていた。
Midjourneyは、明らかにそれよりも画家・画風に関する知識が増強されていると感じる。
まずは参考として、「a detailed oil painting of girl by Pablo Picasso」だとこうなる。
指示文「a detailed oil painting of girl by Pablo Picasso」で生成。
画像作成:清水亮
そして「a detailed oil painting of girl by James Gurney(※)」ではこうなる。
※James Gurney(ジェームズ・ガーニー)は絵本『ダイノトピア』シリーズで知られるイラストレーター
指示文「a detailed oil painting of girl by James Gurney」で生成。
画像作成:清水亮
この二人は、以前のCLIPからよく特徴を掴まれていると評判になっている。
では日本の作家ではどうだろうか。例えば「a detailed oil painting of girl by Hayao Miyazaki」(宮崎駿)ではこうなる
指示文「a detailed oil painting of girl by Hayao Miyazaki」で生成。
画像作成:清水亮
そして、「a detailed oil painting of girl by Masakazu Katsura」(桂正和)ではこうだ。
指示文「a detailed oil painting of girl by Masakazu Katsura」で生成。
画像作成:清水亮
これまで公表されていたCLIPなどには「宮崎駿」や「桂正和」などといった日本の人気作家の画風までは教育されていなかった。その点でMidjourneyは、独自にアジア圏のデータで学習をしている可能性が高いと、個人的には考えている。だがまだ情報が不十分なようだ。
たとえば、作品名で指定したらどうなるだろうか。
「a detailed oil painting of girl in One Piece style.」ではこうなる。
指示文「a detailed oil painting of girl in One Piece style.」で生成。
画像作成:清水亮
作品よりも「詳細な油絵(detailed oil painting)」に引っ張られているようにも見える。
「a detailed oil painting of girl in Dragon Ball style.」ではこうなる。
指示文「a detailed oil painting of girl in Dragon Ball style.」で生成。
画像作成:清水亮
これはドラゴンボールという作品が世界的に認知されているが故だろう。
パラメーターで「●●っぽさ」を変えてみる
また、言葉だけでなく、与えるパラメーターによっても異なる作風になる。
重要なのは--sで与える「様式(スタイライズ)」指数だ。
625から60000までの間で設定できる。デフォルトは2500で、数値が小さいほど「平凡」であり、大きいほど「抽象的かつ大胆」になると言われている。
ここでは「持続可能な開発目標(SDGs)を宮崎駿スタイルで(a detailed oil painting of sustainable development goals in Hayao Miyazaki style)」いくつかの数値を変えて試してみた。
例えば、このように記述する。
「a detailed oil painting of sustainable development goals in Hayao Miyazaki style --s 625」
まずは最低値の625から。
画像作成:清水亮
この時点でかなり非凡な気がする。少し芸術よりにして、値を1000に上げてみる。
画像作成:清水亮
次にデフォルト値の2500だとこうなる。
画像作成:清水亮
箱庭っぽい世界観が出てきた。
さらに抽象度を高めて、値を20000に上げてみると、こんな具合だ。
画像作成:清水亮
さらに、最大値の60000ではこんな感じになった。
画像作成:清水亮
確かに抽象的だ。これを見て「なるほどSDGsだ」と思う人は少ないだろうが、さもありなんという感じがする。
この神絵は「誰が作った」ことになるのか? 著作権の解釈
こうしたAI生成物に対する著作権は、今のところ日本の法律では扱いが難しい。
この問題に詳しいストーリア法律事務所の柿沼太一弁護士の2016年の記事によると、何も法律をいじらない場合、「AIが生成したデータに著作権がある」とは主張できないという。
柿沼弁護士がMidjourneyに関して、最近Facebookに投稿した文章から許可を得て引用させていただくと、人間が「絵のデキ」にどれだけ関与したかが重要になるという。
日本を含むほとんどの国の著作権法の下では、著作権が発生するのは人間の創作物に限られ、人間が創作に関与せずAIの利用により完全自律的に作成されたコンテンツには著作権が発生しない扱いとなっています。
(中略)たとえば「人類がこれまで見たことのない絵」という呪文を入力して生成された画像がいかに素晴らしいものでも、その画像には著作権は発生しません。
(柿沼弁護士のFacebook/https://www.facebook.com/taichi.kakinumaの投稿より、許可を得て抜粋。太字部分は編集部による強調)
ただし、Midjourneyを使った場合、単にAIが生成するだけでなく、最初に指示文を与えたり、途中で「このバリエーションが欲しい」「これに決める」などの「表現の意図」が示されるため、法的な解釈が難しくなってくるだろうことを柿沼弁護士も指摘している。さらに引用する。
Midjourneyの場合は、文章(呪文)を入力して画像を生成するので、まず入力文章の具体性がポイントとなります。
(中略)
で、Midjourneyの場合、呪文が長ければ長いほど良いかというとそうではなく、短い呪文でも、ポイントを捉えれば非常に面白い画像が生成されます。ここは難しいところですね。具体的かつ詳細な指示でなければ創作的寄与は認められないので。
ただ、良い呪文かどうかを試すためには、相当試行錯誤する必要もありますので、試行錯誤した結果「短くても、よい呪文」を見つけられた場合には、その呪文は「具体的指示」ではありませんが、「創作的寄与」には該当するかもしれません。
さらに、Midjourneyでは、最初の生成の際には4つの画像が生成され、そのうち気に入った画像をベースに更に変化させていくという機能がありますので、その機能を使って繰り返し繰り返し画像を生成させていくこともできます。
入力呪文が具体的か、だけでなく、このような画像生成のための試行錯誤・創意工夫も当然「具体的な指示」に含まれます。
以上の通り、「呪文自体が相当長く具体的である」かつ「最終画像生成のために何度も試行錯誤している」というのが「人間がAIの利用に際して具体的かつ詳細な指示をした」の1つの典型例だと思います。
(柿沼弁護士のFacebook/https://www.facebook.com/taichi.kakinumaの投稿より、許可を得て抜粋。太字部分は編集部による強調)
また、Midjourneyには著作権だけでなく肖像権の問題も発生する可能性がある。というのも、Midjourneyは海外の著名な人物の名前を与えればそのまま描いてしまうことが多いからだ。
これに関しては、柿沼弁護士が「法律時報2022年8月号」に寄稿した論文によると、日本の法律では肖像権そのものというよりもパブリシティ権の侵害であるかどうかが重要な論点となるようだ。
人物の肖像を使ったパブリシティ権に関する裁判については、平成24年に最高裁判決が出た、いわゆる「ピンクレディー事件」を参考にすると、「肖像の顧客吸引力(要するに、ピンク・レディーの写真が載っているからその本を買う動機になりうるか)」が本当にあるのかどうかが論点にされていたようだ。
ピンクレディー事件とは、週刊誌「女性自身」が平成19年に掲載した「ピンク・レディー de ダイエット」と題する記事の中で、5曲の振り付けを紹介する14点の白黒写真を掲載し、ピンク・レディー側がパブリシティ権の侵害を訴えた裁判のことだ。
結論としては、最高裁で「週刊誌の発売より1年前からすでに流行していたダイエット法を紹介するもの」であり、「200ページの週刊誌の中の3ページに掲載されていたこと」「写真が白黒でサイズが小さい」ことなどを理由に、不法行為ではないと認定された。
柿沼弁護士の論文を一部引用させていただく。
ピンク裁判は、(中略)(1)肖像等それ自体を独立して鑑賞の対象となる商品等に対し、(2)商品等の差別化を図る目的で肖像等を商品等に付し、(3)肖像等を商品等の広告として使用するなど、専ら肖像等の有する顧客吸引力の利用を目的とすると言える場合を挙げて、具体的な三種類の侵害類型を示した。
(出典:AI技術により自動生成された人物肖像の利用に関するパブリシティ権侵害 柿沼太一・法律時報2022年8月号)
つまり、例えばハリウッド俳優の名前を入力してどんな画像が生成されたとしても、それを広告や宣伝目的、もしくは勝手に「○○(俳優名)を描いた画集」などとして売り出すとパブリシティ権侵害となる可能性があることを示唆している。
いずれにせよ重要なのは、それぞれの画像生成AIの癖を見抜き、学習されたデータの偏りの傾向を意図しつつ、いかに自分の意図に即したものに持っていくか。いわば「指示文の創造性」や「創意工夫」をあくまで人間が担うことの必要性だ。
また、AIが出力したままの状態では著作権を主張するのは難しいが、人間が最後に手を加えれば現行法では手を加えた人間の意図が加わったことになり、著作権を主張できる可能性が高い。
もちろん、文章を生成するAIと組み合わせれば、指示文さえ人間の手を解すことなく送ることができる。
しかし、そうしてできあがった「画像」または「画像に付随する物語」が、果たして人間が見て面白いものになるかどうか。それを判断できるのはやはり依然として人間しかいない。
AIという強力な味方を持ったとき、人間はどのように接すべきか。
AI研究者が突きつけられているのはコンピューター史上で最も哲学的な問題の一つなのだ。
(文・清水亮)
注:この記事のリンクを経由して製品を購入すると、アフィリエイト契約により編集部が一定割合の利益を得ます。