40時間ミッドジャーニーを使って執筆してみた——実際に効果があった方法
私は壁にぶつかったテクニカルライターだ。クライアントから「エンタープライズクラウド移行」に関するブログ記事を15本頼まれていたが、執筆のために座るたびに頭がオートミールのようにぼんやりしてしまった。点滅するカーソルを凝視し、3文を打ち込み、削除し、繰り返す。締め切りは迫り、私は必死だった。
そんな時、私は馬鹿げたことを試した。画像生成AIであるミッドジャーニーを執筆に使うことだ。挿絵ではなく、テキスト自体を生成させるために。そう、電球をねじ込むのにハンマーを使うようなものだ。しかし40時間のテストの末、実際に使える散文を生み出す3つのワークフローを見つけた。以下がその正確なプロセスと、途中で犯したすべての失敗だ。
なぜ執筆にミッドジャーニーなのか?(そしてなぜ懐疑的であるべきか)
ミッドジャーニーはテキストではなく画像で訓練されている。文法や物語構造を「理解」してはいない。しかし秘訣はこれだ:プロンプトを与えると、トークンに基づいて画像を生成する——言語モデルが使うのと同じトークンだ。画像は単にそれらのトークンの視覚的表現に過ぎない。正しくプロンプトすれば、それらのトークンは場面、感情、さらには会話を描写できる。
真の力は?ミッドジャーニーは視覚的なストーリーテリングに優れている。ほとんどのテキストベースのAIツールが見逃す、具体的で感覚的な詳細を生成できる。同じプロンプト「午前6時のコーヒーショップを描写せよ」でChatGPT、Claude、ミッドジャーニーをテストした。ChatGPTはありきたりな段落を、Claudeは詩的な段落を返した。ミッドジャーニーは、ひび割れた陶器のマグカップを持つバリスタ、窓ガラスに閉じ込められた一匹のハエ、'O'の文字が消えた「ESPRESSO」とちらつくネオンサインの画像を返した。その画像は物語を語っていた。
必要なもの(そして壊れるもの)
- ミッドジャーニーのサブスクリプション(月額10〜60ドル)。執筆には30ドルのプランが最適。
- テキストベースのAIツール(ChatGPT、Claude、または無料のPerplexityなど)。ミッドジャーニーの出力を洗練するために使う。
- ノートまたはテキストファイル。多くの生の描写をコピーすることになる。
- 忍耐。最初の10回の試みは失敗する。
壊れるもの: ミッドジャーニーは首尾一貫した段落を書けない。プロットの論理に従えない。意味の通る会話を生成できない。「SEOに関するブログ記事」を依頼すると、キーワードでできた蜘蛛の巣の画像が返ってくる。役に立たない。
ワークフロー1:「場面抽出」法(最速、最も信頼性が高い)
場面に具体的で感覚的な詳細が必要な時に使う。モロッコの市場に関する旅行記事を書くのにこれを使った。
ステップ1:視覚的なプロンプトを作成する
「モロッコの市場」と書かない。次のように書く:
マラケシュのスークの狭い路地、ゴールデンアワーの光、吊るされたランタン、サフランを並べる商人、浮かぶ埃の粒子、窓辺から見つめる猫、浅い被写界深度、フォトリアリスティック --ar 16:9 --v 6
ステップ2:4つの画像を生成する
ミッドジャーニーは4つのバリエーションを生成する。最も「生き生き」と感じるものを選ぶ。
ステップ3:見えたものを文字通り描写する
テキストファイルを開く。画像に見えるすべてを書き留める。解釈せず、単に列挙する:
- 「光はオレンジ色で、路地の左側に当たっている」
- 「商人は金の刺繍が入った青いローブを着ている」
- 「壁にアフリカの形をしたひび割れがある」
- 「サフランは木箱の上にピラミッド状に積まれている」
- 「猫はオレンジ色で、敷物の山の上に座っている」
ステップ4:リストを散文に変える
そのリストを段落に書き起こす。まだ編集しない。点と点をつなぐだけ:
路地はゴールデンアワーの最後の光を受け止めていた。金糸で刺繍された青いローブを着た商人が、割れた木箱の上にサフランを完璧なピラミッド状に並べていた。光はアフリカの形をした壁のひび割れに当たっていた。頭上では、オレンジ色の猫が敷物の山の上に座り、舞う埃の粒子を見つめていた。
なぜこれが効果的なのか: 想像しているのではなく、存在するものを描写しているのだ。画像は、頭の中では飛ばしてしまうような細部に気づかせてくれる。猫。ひび割れ。サフランのピラミッド。そうした細部が文章をリアルに感じさせる。
実際の欠点: これは静的な場面にしか機能しない。アクション、会話、プロットが必要な場合は失敗する。「カーチェイス」の場面を抽出しようとしたが、タイヤのぼやけた画像が4つ返ってきただけだった。
ワークフロー2:「ムードボード」法(トーンと雰囲気のために)
これは、求めている感情はわかっているが言葉が見つからない時に使う。ホラーストーリーの冒頭を書くのにこれを使った。
ステップ1:同じムードの画像を20枚以上生成する
プロンプトのバリエーション:
廃病院の廊下、ちらつく蛍光灯、剥がれた青いペンキ、突き当たりの車椅子、冷たい雰囲気、シネマティックな照明、ホラー --ar 16:9
同じ場面だが天井近くに浮かぶ赤い風船が一つ
同じ場面だが照明を反射する水たまり
各バリエーションにつき4〜5枚の画像を生成する。視覚的なライブラリを構築しているのだ。
ステップ2:感情的な語彙を抽出する
画像を見て、それらが引き起こす感情を書き留める。描写ではなく、感情だ:
- 「ちらつく照明からの不安」
- 「空の車椅子からの孤独」
- 「赤い風船からの恐怖」
- 「剥がれたペンキからの方向感覚の喪失」
- 「青い色合いからの冷たさ」
ステップ3:それらの感情だけを使って段落を書く
ライトは間違ったリズムでハミングしていた——速すぎて、パニックになった心臓の鼓動のようだった。青いペンキは長い帯状に剥がれ、それぞれが疑問符のようだった。廊下の突き当たりで、車椅子が壁に向けられ、決して来ない誰かを待っているかのようだった。赤い風船が天井近くを漂い、風もないのに揺れていた。
なぜこれが効果的なのか: ミッドジャーニーはプロットはひどく苦手だが、ムードは素晴らしく得意だ。照明、色彩、構図を、テキストベースのどのツールよりも上手く捉える。画像から感情的なシグナルを抽出することで、自分自身のライターズブロックを回避できる。
実際の欠点: この方法は濃密で、書き過ぎの散文を生み出す。すべての文が比喩のように感じられる。単語の40%を削る必要があるだろう。ホラーの冒頭は読みやすくするために半分を削除しなければならなかった。
ワークフロー3:「リバースエンジニア」法(会話とキャラクターのために)
最も難しいが、最もやりがいがある。ミッドジャーニーが生成したものを解釈し、そこから推論する必要がある。
ステップ1:キャラクターの肖像を生成する
プロンプト:
40代の女性がダイナーのカウンターに座っている、疲れた目、半分残ったコーヒーカップ、灰皿で燃えるタバコ、外のネオンサインは「OPEN」、1950年代スタイル、フィルムノワール照明、ポートレート --ar 2:3
ステップ2:画像について自分に質問する
描写ではなく尋問する:
- なぜ彼女は疲れているのか?(ダブルシフトを働いた。息子が病気だ。現れなかった誰かを待っている。)
- なぜコーヒーは半分しか残っていないのか?(何時間もそこにいる。少しずつ飲んでいる。立ち去りたくない。)
- タバコはどうなっているのか?(煙が立ち上っている。何分も吸っていない。気が散っている。)
- ネオンサインは彼女にとって何を意味するのか?(唯一の光だ。約束だ。嘘だ。)
ステップ3:彼女の視点からモノローグを書く
コーヒーは冷めていた。20分もかき混ぜていた。スプーンが暗闇の中で円を描くのを見ながら。タバコは私が気づかないうちにフィルターまで燃え尽きていた。外ではOPENのサインがちらつき、'E'が閉じ込められたハエのようにブンブンと鳴っていた。立ち去ろうと思った。留まろうと思った。どちらもしなかった。
なぜこれが効果的なのか: ゼロからキャラクターを想像しているのではなく、画像を通して発見しているのだ。視覚的な制約が具体的にさせる。コーヒーは単なるコーヒーではなく、冷めたコーヒーだ。サインは単なるサインではなく、ブンブンと鳴っている。
実際の欠点: これは静的な場面の単一キャラクターにしか機能しない。口論する二人のキャラクターを生成しようとしたが、ぎこちなく立ち、互いを見ない二人の画像が返ってきた。ミッドジャーニーは相互作用を示せない。
40時間後に学んだこと(厳しい真実)
ミッドジャーニーは作家ではない。 それは作家のための視覚的プロンプト生成器だ。実際の言葉を書くのはあなた自身だ。生の素材を提供してくれるだけだ。
最良の結果は最悪の画像から生まれる。 ぼやけた、奇妙な、歪んだ画像——指が多かったり顔が溶けていたりするもの——が最も興味深い描写を生むことが多い。不気味なものを受け入れよ。
テキストベースのAIを仲介者として使わなければならない。 ミッドジャーニーの視覚的出力をChatGPTにコピーし、「この詳細のリストを憂鬱なトーンの段落に変えて。画像自体への言及はすべて削除して」と言う。これで何時間も節約できる。
コストは現実的だ。 ミッドジャーニーに月30ドル、ChatGPTに20ドルで月50ドル。執筆ツールとしては高い。しかし行き詰まっているなら、ライティングコーチより安い。
中毒性がある。 執筆すべき時に「地震後の図書館」の画像を生成するのに3時間費やした。タイマーを設定せよ。
次のステップ(読むな、やれ)
ミッドジャーニーを開け。この正確なプロンプトを入力せよ:
タイプライターのある机、半分食べられたサンドイッチ、口紅の跡がついたコーヒーマグ、雨の見える窓、コルクボードに留められたメモ、柔らかいランプの光、ノスタルジック、暖色 --ar 16:9
画像を生成せよ。そして見えたものだけに基づいて200語の場面を書け。背景説明は不要。プロットも不要。犯罪現場を記録する探偵のように、画像を描写するだけだ。
そして50語を削除せよ。それがあなたの最初の使える段落だ。
記事の残りは? あなたならどうにかできる。今や画像があるのだから。