Midjourneyとは？話題の画像生成AIにすっかりハマって課金までした話

もいんもいん！ニナ（@_ninahaus_）🦆です。

規制当局の強硬姿勢やら銀行の清算やらでクリプト界隈には暗雲が垂れ込めていますね。それらに加えて日本勢は確定申告シーズンなので、皆さまの鬱憤はたまるばかり…。

ニナ

お疲れ様です

私はというと、長引く体調不良によりすっかりモチベーションを失いまったくブログを更新していませんでした。(n回目)
それでなくてもブログは平時より超亀更新ですが、今回はけっこう深刻で、どれくらい沈んでいたかと言うとCosmosのお気に入りMemeトークン、チワワのコンパウンドをサボり、何週間もビールを飲まなかったくらいです。※アヒルは三度の飯よりお酒が好きです

が、3月に入ってかなり快復したので、今回は！思い切って✨ブログを改築✨しました！

ブログを読むとき、ライトモードとダークモードどっちが好き？

— Nina🌸 (@_ninahaus_) March 11, 2023

もともとフリーダムにCSSをいじっていたこと、超ライトモードから微ダークモードにガラッと変更したことが災いしてかなり手直しする部分が多かったです。過去記事も見直しましたが、まだ不具合が残っていたらごめんなさい。

修造

振り返っちゃダメだ！戻れねぇんだよ！おまえに必要なのは今を生きること！

さてさて、今回の記事では私がドはまりしているMidjourneyについてご紹介します。

ニナ

これからはクリプト以外の記事も書いていきたい

Midjourneyとは

Midjourney(ミッドジャーニー)は、ユーザーが入力するテキストの説明文に対し画像を作成するオリジナルの人工知能プログラムです。2022年夏にリリースされました。また、開発元であるラボの名前もMidjourneyです。

Midjourney公式サイト：https://www.midjourney.com/

Midjourneyは、新しい思考の媒体を探求し、人類の想像力を拡張する独立した研究ラボです。私たちは、デザイン、ヒューマンインフラ、AIに焦点を当てた小さな自己資金を持つチームで、11人のフルタイムスタッフと素晴らしいアドバイザーたちがいます。

(Midjourney公式サイトより)

ユーザーの入力テキストにテキストを返信するChatGPTが昨今大人気ですが、ChatGPTが登場したのは2022年の冬ですから、Midjourneyが少し先輩です。ただしステーブルリリースがなされたChatGPTと異なり、Midjourneyは2023年3月現在も「ベータ版」です。

ニナ

公式サイトも必要最低限って感じです

Midjourneyの美点

①必要なのはDiscordアカウントのみ

画像生成AIは複数ありますが、アカウント作成が必要だったり、利用開始までに難解なUIを解読しなければならないケースが多いです。それに引き換えMidjourneyはDiscordアカウントひとつあれば利用を開始することが可能です。参入障壁の低さは好感度大ですね。

Discordサーバーの招待を受け取るには、公式サイトトップページの「Join the Beta」をクリックしてください。Discordサーバー参加画面に飛ばされます。

Midjourney公式サイト：https://www.midjourney.com/

ちなみに現時点では「Sign In」を選んでもDiscordサーバー(未参加の場合は参加画面)に飛ばされます。行き先の同じふたつの入り口があるのは不思議なのでソースを見てみました。どうもベータ版終了時に「Join the Beta」リンクは削除され、「Sign In」から/appに飛ぶようになりそうです。appがDiscordを用いたものなのか、Midjourneyウェブサイト上で完結するものになるのかはまったく分かりません。

②画像生成が簡単

無事Midjourneyサーバーに参加できたら、さっそく画像を生成してみましょう。
画像生成はnewbies-XXXチャンネルで実施できます。どのチャンネルでも同じことができるので、好きな数字を選んでください。

テキスト入力欄に「/imagine」を入力
スペースバーを押下してprompt入力欄を出す
promptに生成したい画像の説明文を入力する
エンターボタンを押下する
そうするとこの注文が生成待ちキューに入ります。
待つ。
通常、数分で画像生成が完了しますがサーバーやプログラムの混雑具合によってはちょっと長く待たないといけないことも。こんな感じで進捗が見られます。
完成！
必要に応じて微調整する
U1～U4 → その数字の画像をアップスケール(高解像度化)します。
V1～V4 → その数字の画像をベースに4つのバリエーションを作ります。
更新ボタン🔃 → 画像を完全に作り直し、4つの新たな画像を生成します。U4の結果：
V4の結果：

更新ボタンの結果：

共用チャンネルでの作業のため生成結果画像が他の人のログで流されてしまいますが、DiscordのInbox機能を利用すればストレスなく生成結果を確認できます。

Discord画面右上のアイコンをクリックしてみてください。

Midjourneyの問題点

①著作権

Midjourneyはインターネット上に公開された画像を教師データ(学習リソース)として利用しています。その中には著作権で保護されているはずのデータもあり、許可を得ない利用であることから倫理的かつ法的な問題となっています。先日ワシントンポストが報じたニュースを閲覧された方もいらっしゃるかもしれません。

②こちらの意図を拾わないことがある

「a bunny with pancakes on its head」

インターネットミームの一つであるこれは、英語話者に訊いてもニューラル機械翻訳の王様、DeepLに訊いても同じ理解を示します。

ChatGPTも同様の回答を返しました。

このミームについてもっと詳細に知りたい方はこちらをどうぞ：

【PancakeSwap】ウサギの元ネタの謎に迫る？こんにちは！ニナ（@_ninahaus_）🦆です。先日のAMAにて「なぜPancakeSwapはウサギ&...

ところが、Midjourneyにかけるとこうなります。パンケーキはうさぎの頭に乗っていません。(リアルなうさぎを描画するため”very detailed and photorealistic”を追加しています)

ニナ

でもこれ👇よりはうまくできてる

＜悲報＞
Midjourneyさん、「a bunny with pancakes on its head」(パンケーキを頭にのせたうさぎ)が理解できない pic.twitter.com/tv8ta9ao65

— Nina🌸 (@_ninahaus_) March 12, 2023

また、指定文字入り画像の生成も苦手なようです。
指定したのは「the door saying “EXIT”」(EXITと書かれた扉)のみ。

もちろん説明文をより丁寧に明確にすればマシな結果になるのかもしれませんが、これらの説明文はヒト相手であれば普通に通じるものなのでAI(人工知能)には頑張ってほしいところです。

③日本語サポートに難あり

ニナ

ピの字も出してないのに著作権問題が生じてるやないか！

…というわけで入力テキストは英語が良さそうです。英語が苦手な方はDeepLかChatGPTの利用をおすすめします。

④クオリティ

「AIは手が描けない」

これは過去の有名な話ですが、昨今のAIは進化してちゃんと描け…

ニナ

…………

ニナ

描けてない！

もちろん「指は5本」とか「関節はこう曲がるべき」と明確に指定すれば正しく生成してくれるのでしょう。でもヒト相手であれば普通に通じるものなのでAI(人工知能)には頑張ってほし(以下略)

Midjourneyを使用するうえでの注意点

Midjourneyは無料で利用できますが、「フリートライアル」の位置づけであるためいくつかの利用制限があります。

1アカウントにつき処理速度の速いGPUでの描画処理は0.4時間分まで
生成画像のシェアは自由だがクレジットの明記が必要
商用利用不可

詳細は公式ドキュメントでご確認ください。
課金すると次の2大特典が解放されます。

商用利用可
Discordサーバーの共用チャンネルではなく、個人DM内で画像生成が可能

ニナ

私はBasic Planを買いました

現在はベータ版であることから、課金形態は今後も変更になる可能性があります。

Midjourney、個人的総評◎

Midjourneyの得手不得手を把握したうえで、入力テキストをよく練れば素晴らしい結果が得られます。

例えば、Midjourneyは抽象的なデザインが得意です。「宇宙飛行士がロケットを修理中」は難しい注文ですが、「宇宙」であればそれは美しい世界を創り出します。本当にそんな色・形の星があるかどうかはともかく、万人がそれを見て「宇宙だ」と答える画像を生成してくれます。

Midjourneyが苦手な点をさらに挙げるなら、ロゴの利用です。Midjourneyにロゴ画像ファイルを入力として与え、「ネオン背景」と指定したとしましょう。ヒトならば「ロゴはデザインはそのままで使うもの」という前提知識があるため、ネオン背景にロゴを付けくわえたり、ロゴをネオンぽく光らせたりするかもしれません。Midjourneyはそういった前提を持たないので、安易な説明文だとロゴを分解してしまいます。ただし以下の例画像からも分かるように、Midjourneyは「ロゴから色を取り出す」といった新しい発想をくれます。

与えた画像はこれ：

生成された画像はこれ：

Midjourneyの使い道

Midjourneyは次のようなものを作る上で非常に有効です。

デザインのプロトタイプ
新規オープン店舗のロゴ試作など。あっという間に数十個作ってくれるでしょう。
個人がインスピレーションを受ける目的で生成する画像
油絵を描く前に構図アイデアを集めるなど。
ヒトがまじまじと見ない(詳細部分は多少アレでもOK)なもの
ブログ記事のカバー画像など。
ジョーク画像
指が6本あっても大丈夫！

私はすっかり気に入ってしまったので、本ブログ記事のカバー画像は順次Midjourney製にしていく予定です。

Midjourneyはアーティストの仕事を奪うのか？

AIが絡むと「それはヒトの仕事を奪うか」という質問が必ず出ますね。私はYESでありNOだと思います。

インスピレーションを得るためのスケッチ、リビングルームに色を添えるランダムなアートワーク、なんとなくクールな感じにさえ見えればいいTシャツデザイン…いわゆる「あまりお金と時間をかけたくないもの」「そこまでこだわりを持たないもの」はどんどんAIの作品になるのではないでしょうか。ヒトが描くよりずっと安いですし。

しかしながら、画像生成AIがヒトのアーティストに勝てないケースは確実に存在します。

発注者の頭の中に既に完成ビジュアル(こだわり)があるが、うまく言葉にできない場合

ヒトは言語情報、視覚情報、聴覚情報を駆使して相手からの情報を咀嚼します。かの有名なメラビアンの法則です。Midjourney単体でこれらの情報を取得・分析することは不可能であり、ChatGPTとタッグを組ませたとしても後者ふたつが不足します。ヒトには不可能なレベルの画像認証をこなすロボットはいるのですが、視覚情報と聴覚情報を併せてヒトのように処理できるロボットは存在しないため、ヒト用コミュニケーションの世界ではAIはまだヒトに勝てないのです。

では比較条件をフェアにするため、ヒトのアーティストも画像生成AIも、発注者との対話はテキストチャットオンリーにしてみたらどうでしょう？これはアーティストと発注者それぞれのコミュニケーションスキルに依存し過ぎるため、なんとも判定しがたいです。

ニナ

絶望的にテキストチャットがダメなヒトいるからね

作品が単なる「絵」ではない場合

アーティストの描く絵には、その人固有の人生経験、その作品に関わっていた頃の好み、その時代の風潮など様々な要素が反映されている場合があります。それこそが芸術作品の価値であると見なす人もいるほどです。

ところが、画像生成AIの描く絵にはそれがありません。大量に学習したものを要求に応じ吐き出しています。「2023年夏に新しい教師データ(学習リソース)としてピカソ作品がめちゃくちゃ入ったから、以降の作品にちょっとゲルニカみが入りました～」みたいなケースはあるかもしれませんが、それをAIの価値ある人生経験とみなす人はレアなのではないかと思います。

ニナ

そもそも”人生経験”に価値があるとされるのは人生が有限だからで…AIは保守頑張ればずっと生きるから…

ただAIが個性を持った場合、これらが変わってくるかもしれませんね。

これ以上はめちゃくちゃ長くなるのでやめます。
端的に言えば「ヒトって凄いので、AIにサクッと取って換わられないと思いますよ」です。

ニナ

ちなみに私の専攻、人工知能です(畑はちょっと違いますが)