Midjourney:実際のユーザーによる正直な概要
私は2023年初頭からMidjourneyを使用しており、ストックフォトや簡単なスケッチでは得られない特定の画像が必要な場合の頼りになるツールになっています。完璧ではありませんが、フリーランスのライター兼コンセプトアーティストとして、これまで見つけた中で最も一貫して有用なAI画像生成ツールです。以下は、実際に優れている点、欠点、そして費用に見合うかどうかです。
優れている点
Midjourneyは、視覚的に印象的で高解像度の、独特の美学を持つ画像を生成するのに優れています。デフォルトのスタイルは絵画的でドラマチック、ややシュールな傾向があります——ファンタジーの風景、映画のようなポートレート、ムーディーなインテリアを想像してください。例えば、最近クライアントの書籍カバー用に「生物発光する苔のある朽ちたビクトリア朝の図書館」の画像が必要でした。Midjourneyは1分以内に4つの優れたオプションを提供し、それぞれ詳細なテクスチャ、リアルな照明、調和のとれたカラーパレットを備えていました。苔はほのかに光り、本棚は影に消え、全体的な構図は意図的に感じられました。
もう一つの強みは、抽象的な概念的なプロンプトを処理する能力です。「星の水たまりに溶ける時計」や「ガラスと煙でできた都市」を生成したことがありますが、どちらも驚くほど一貫性がありました。このツールは多くの競合他社よりも空間関係を理解しており、プロンプトで明示的に要求しない限り、オブジェクトが互いに融合することはあまりありません。
すぐに直面する制限
最大のフラストレーションは、精密な制御ができないことです。大まかなレイアウトを描いて「ここに木、あそこに人を置く」と言うことはできません。プロンプトはテキストのみなので、モデルの解釈次第です。特定の深紅色の「赤い車」が欲しいですか?運が良ければ、汎用的な赤、おそらくオレンジがかったり栗色がかったものが得られるでしょう。バリエーションで繰り返すことはできますが、推測ゲームです。
顔と手はまだ信頼できません。2024年初頭にMidjourneyは大幅に改善されましたが、それでも指が6本の手や、きちんと揃わない目が生成されます。クローズアップのポートレートでは、明らかな変形のない画像を得るために、10~20枚生成する必要があることがよくあります。また、テキストの処理が苦手で、「OPEN」と書かれた看板を要求すると、意味不明な文字やスペルミスが生成される可能性が高いです。
主要なワークフロー
標準的なワークフローは、MidjourneyのDiscordサーバーに参加するか(2024年末にローンチされたウェブアプリを使用)、/imagineとプロンプトを入力し、30~60秒待って4枚の画像を取得します。その後、1枚をアップスケールしたり、バリエーションを作成したり、「リミックス」機能でプロンプトを微調整したりできます。複雑なプロジェクトでは、マルチステッププロセスを使用します:
- 初期生成:広範なプロンプトで雰囲気を掴む。
- 微調整(微妙):最良の画像をわずかに調整して詳細を修正。
- アップスケール:解像度を1024x1024以上に上げる(有料プランでは2倍アップスケール可能)。
- インペインティング(Photoshopなどの外部ツール使用):手、テキスト、不要な要素を手動で修正。Midjourney自身のインペインティングは弱いため。
バッチ作業の場合、「高速」モードを使用して複数のプロンプトを並行して実行します(ベーシックプランでは追加料金がかかります)。また、「スタイルリファレンス」機能を使用して特定のアーティストのスタイルを模倣します——例えば、ムーディーなリアリズムのために「エドワード・ホッパーのスタイルで」。
料金の実態
Midjourneyは有料のみで、ベーシックプランは月額10ドルからで、月3.3時間のGPU時間(約200~300回の画像生成)を提供します。スタンダードプラン(月額30ドル)は15時間と無制限の「リラックス」モード(低速、GPU制限なし)を提供します。プロプラン(月額60ドル)は30時間とステルスモード(画像がギャラリーに表示されない)を含みます。
落とし穴は、「高速」モードが時間を急速に消費することです。各生成には約0.5~1分のGPU時間がかかりますが、アップスケーリングやバリエーションも加算されます。1日50枚の画像を生成する場合、ベーシックプランは1週間で尽きます。私はスタンダードプランを使用しており、パートタイムの使用には十分です。また、請求を一時停止および再開できるため、プロジェクトにのみ必要な場合に便利です。
対象者