誰も知らない、神絵AI「Midjourney」5つの考察。“画像で指示”する方法から著作権問題まで

evangerion

指示文「A detailed oli painting of organic shaped warplane flying sky in Evangelion style」で生成。

作成:清水亮

Twitterなどで「絵を描くAI」として注目を集めている「Midjourney(ミッドジャーニー)」。

AI研究者の筆者・清水亮氏が、最新のAI開発事情の解説を交えながら同ツールを使っていく短期集中企画の後編。

今回は「Midjourneyを使うコツ」として、キーワード以外に画像を読み込ませる方法なども取り上げていきます。

前編:神絵を描くAI「 #Midjourney 」はどうやって生まれたか…その可能性と限界、そして課題

中編:神絵を描くAI「Midjourney」にナントカ風のイラストを描かせてみる…興味深い結果に【使い方・AI比較】

Midjourneyに「画像」を読み込ませて指示する方法

Midjourneyを使いこなすには、Midjourneyを構成する技術の背景を想像して、うまいプロンプト(指示文)を作らなければならない。

Midjourney(ミッドジャーニー)とは:デビッド・ホルツ氏が開発した、コミュニケーションツールDiscord上で指示して絵を描かせる画像生成AIサービス。英語で指示することで、見たこともない幻想的な絵を生成できることから、「神絵を描くAI」として話題になっている。

また、Midjourneyには実はさまざまなオプションがある。このオプションを使うことで自分が欲しい絵の雰囲気を、「言葉ではなくて絵で」教えることもできる。

具体的な例を示そう。たとえば、筆者の自撮りをMidjourneyに与えてみる。

midjourney-20

Midjourneyに読み込ませた筆者の写真。想像と違う結果になった。

撮影:清水亮

元絵を与えるには、promptの直後に画像のURLを書く。たとえば下記のような具合だ。

midjourney-23

作成:清水亮

この画像をもとに、Midjourneyがどんな画像を生成したか、意外に思われるだろうがこんな画像になる。

midjourney-16

筆者の画像を読み込ませて、生成された画像。なんと、生成されたのは「人」ではなかった。

画像作成:清水亮

画像を読み込ませる前の想定では、筆者のような男性が生成されると思ったのだが、意外なことに「段ボール」の方に強く反応してしまった。

画面内に余計な情報があると、そちらに強く反応してしまうようだ。スーツ姿の男性、ということを伝えるためにこの写真を見せてみた。

midjourney-10

余計な要素が入らないように、顔を切って、服装だけを見せることにした。

撮影:清水亮

すると結果はこうなった。

midjourney-04

興味深いことに、AIには見せなかった顔の部分を生成してきた。

画像作成:清水亮

面白い。あえて顔は出さないでAIに見せたのだが、顔の方を補完してきた。

つまり、モチーフとして与える絵は、あくまでも(言葉と同様に)「情報」を伝えるためのものと考えた方が良さそうだ。

しかしこの映像からは「アジア風」ということも伝わってしまったらしい。肌の色に引っ張られたのかもしれないが、なかなかファッションというのは奥が深いものだ。

これに、たとえば画像と一緒に「a detailed oil painting of western business person.」という言葉を付け加えると、こうなる。

midjourney-21

Midjourneyに読み込ませるプロンプトの例。画像のURLのあとに、油彩画風のビジネスパーソンの指示を入れている。

作成:清水亮

「ビジネスパーソン」と画像にある「スーツ」の情報が強調され、西洋風の顔の油彩画になった。

midjourney-15

スーツの画像URLに加えて「a detailed oil painting of western business person.」を追加して生成した画像。

画像作成:清水亮

では女性でもいけるだろうか。最後の「person」を「woman」に変えてみた。

midjourney-03

先ほどとまったく同じプロンプトの、末尾をWomanに変えた。画像URLのあとに「a detailed oil painting of western business woman.」と書いて生成。

画像作成:清水亮

ちなみに先ほどの写真に添える文章から「business」という単語を抜いて「detailed oil painting of woman」にすると、次のように変わる。

midjourney-09

先ほどのプロンプトの指示語から「business」を抜いて生成した画像。ビジネス感が見事に消えている。

画像作成:清水亮

元の写真の少しフォーマルな印象を引き継ぎつつ、見事に女性に変換されている。

Midjourneyのような画像生成AIを使いこなすには、このAIがどのような偏見(バイアス)に基づいてつくられたものかを把握しておく必要がある。背景にあるバイアスが、単語選びや、与える画像選びに大きく影響するからだ。

写真によるヒントを与えることなしに「a detailed oil painting of business person」という単語を与えると、このような画像が出てきた。

midjourney-14

画像作成:清水亮

こうすると、Midjourneyは「ビジネスパーソンといえばスーツを着た男性」という偏見を持っていることがよくわかる。

Midjourneyがどんな「教育」を受けてきたか考察する

このAIがどんな「教育」を受けてきたかというバイアスを知るためには、日本にしかないものを見せると把握しやすい。例えば、「カツカレー」だ。

トンカツは日本独自の料理なので、海外のデータセットに入ってないことが多い。

midjourney-08

日本固有の料理「カツカレー」をMidjourneyに描かせてみると……。

撮影:清水亮

この写真を見せると、生成される画像は以下のようなものになる。

midjourney-02

Midjourneyが「カツカレー」の画像を見て生成してきたもの。なんとなく、日本ではない国の写真という感じがしないだろうか。

画像作成:清水亮

カツとカレーに引っ張られているが、日本よりも中国のデータを多く学習していそうだと推察できる。イメージ的には中国にある日本料理店みたいな印象だ。

日本のデータをメインに学習させていれば、トンカツは必ずでてくるはず。だが、この生成された画像には、ハッキリと「トンカツ」とわかるものはない。

ちなみに、「知っている芸能人や政治家をすぐに可視化できるか」でもバイアスを探ることができる。

画家風のタッチで描かせてみる

では、画家はどの程度知られているだろうか。

これまでのCLIPでは、「ダリ」や「ピカソ」「岡本太郎」などの大御所芸術家は認識することが知られていた。

Midjourneyは、明らかにそれよりも画家・画風に関する知識が増強されていると感じる。

まずは参考として、「a detailed oil painting of girl by Pablo Picasso」だとこうなる。

midjourney-19

指示文「a detailed oil painting of girl by Pablo Picasso」で生成。

画像作成:清水亮

そして「a detailed oil painting of girl by James Gurney(※)」ではこうなる。

※James Gurney(ジェームズ・ガーニー)は絵本『ダイノトピア』シリーズで知られるイラストレーター

midjourney-13

指示文「a detailed oil painting of girl by James Gurney」で生成。

画像作成:清水亮

この二人は、以前のCLIPからよく特徴を掴まれていると評判になっている。

では日本の作家ではどうだろうか。例えば「a detailed oil painting of girl by Hayao Miyazaki」(宮崎駿)ではこうなる

midjourney-07

指示文「a detailed oil painting of girl by Hayao Miyazaki」で生成。

画像作成:清水亮

そして、「a detailed oil painting of girl by Masakazu Katsura」(桂正和)ではこうだ。

midjourney-01

指示文「a detailed oil painting of girl by Masakazu Katsura」で生成。

画像作成:清水亮

これまで公表されていたCLIPなどには「宮崎駿」や「桂正和」などといった日本の人気作家の画風までは教育されていなかった。その点でMidjourneyは、独自にアジア圏のデータで学習をしている可能性が高いと、個人的には考えている。だがまだ情報が不十分なようだ。

たとえば、作品名で指定したらどうなるだろうか。

「a detailed oil painting of girl in One Piece style.」ではこうなる。

midjourney-18

指示文「a detailed oil painting of girl in One Piece style.」で生成。

画像作成:清水亮

作品よりも「詳細な油絵(detailed oil painting)」に引っ張られているようにも見える。

「a detailed oil painting of girl in Dragon Ball style.」ではこうなる。

midjourney-12

指示文「a detailed oil painting of girl in Dragon Ball style.」で生成。

画像作成:清水亮

これはドラゴンボールという作品が世界的に認知されているが故だろう。

パラメーターで「●●っぽさ」を変えてみる

また、言葉だけでなく、与えるパラメーターによっても異なる作風になる。

重要なのは--sで与える「様式(スタイライズ)」指数だ。

625から60000までの間で設定できる。デフォルトは2500で、数値が小さいほど「平凡」であり、大きいほど「抽象的かつ大胆」になると言われている。

ここでは「持続可能な開発目標(SDGs)を宮崎駿スタイルで(a detailed oil painting of sustainable development goals in Hayao Miyazaki style)」いくつかの数値を変えて試してみた。

例えば、このように記述する。

「a detailed oil painting of sustainable development goals in Hayao Miyazaki style --s 625」

まずは最低値の625から。

midjourney-06

画像作成:清水亮

この時点でかなり非凡な気がする。少し芸術よりにして、値を1000に上げてみる。

midjourney-17

画像作成:清水亮

次にデフォルト値の2500だとこうなる。

midjourney-11

画像作成:清水亮

箱庭っぽい世界観が出てきた。

さらに抽象度を高めて、値を20000に上げてみると、こんな具合だ。

midjourney-05

画像作成:清水亮

さらに、最大値の60000ではこんな感じになった。

midjourney-22

画像作成:清水亮

確かに抽象的だ。これを見て「なるほどSDGsだ」と思う人は少ないだろうが、さもありなんという感じがする。

あわせて読みたい

Popular