如何用 Midjourney 创作出好作品

writingbeginner

# 我用Midjourney写了40小时文章——真正有效的方法在这里

我是一名技术写作人员，遇到了瓶颈。客户要求写15篇关于"企业云迁移"的博客，每次我坐下来写作，大脑就变成了一团浆糊。我盯着闪烁的光标，打出三句话，删掉，再重复。截稿日期日益逼近，我走投无路了。

就在这时，我尝试了一个愚蠢的方法：用Midjourney——一个人工智能图像生成器——来写作。不是用来配图，而是*生成文字本身*。我知道，这听起来像是用锤子拧灯泡。但经过40小时的测试，我找到了三种能产出可用文章的工作流程。下面是详细过程，以及我犯过的所有错误。

## 为什么要用Midjourney写作？（以及为什么你应该保持怀疑）

Midjourney是训练在图像上，而不是文字上。它并不"理解"语法或叙事结构。但诀窍在于：当你给它一个提示时，它会根据*标记*生成图像——和语言模型使用的标记相同。图像只是这些标记的视觉呈现。如果你正确提示，这些标记可以描述场景、情感，甚至对话。

真正的力量在于：Midjourney擅长*视觉叙事*。它能生成大多数基于文本的AI工具所缺失的具体的、感官的细节。我用同样的提示测试了ChatGPT、Claude和Midjourney："描述早上6点的咖啡馆"。ChatGPT给出了一个普通的段落。Claude给出了一个诗意的段落。Midjourney给出了一个图像：一个拿着裂口陶瓷杯的咖啡师，一只被困在窗玻璃上的苍蝇，一个霓虹灯招牌闪烁着"ESPRESSO"，而'O'字不亮了。这个图像*讲述了一个故事*。

## 你需要什么（以及什么会出问题）

- **Midjourney订阅**（每月10-60美元）。30美元的套餐是写作的最佳选择。

- **基于文本的AI工具**（ChatGPT、Claude，甚至免费的Perplexity）。你将用这个来*优化*Midjourney的输出。

- **笔记本或文本文件**。你需要复制大量的原始描述。

- **耐心**。前10次尝试都会失败。

**什么会出问题：** Midjourney无法写出连贯的段落。它无法遵循情节逻辑。它无法生成有意义的对话。如果你让它写一篇"关于SEO的博客文章"，你会得到一个由关键词组成的蜘蛛网图像。毫无用处。

## 工作流程1："场景提取"法（最快、最可靠）

当你需要某个场景的*具体的、感官的细节*时使用。我用这个方法写了一篇关于摩洛哥市场的旅行文章。

**第1步：设计视觉提示**

不要写"摩洛哥市场"。要写：

```

马拉喀什集市狭窄小巷，黄金时刻光线，悬挂的灯笼，商人摆放藏红花堆，漂浮的尘埃，窗台上观望的猫，浅景深，照片级真实感 --ar 16:9 --v 6

```

**第2步：生成4张图像**

Midjourney会给你4个变体。选择最有"生命力"的那张。

**第3步：描述你所看到的——字面意义上的**

打开一个文本文件。写下你在图像中看到的*一切*。不要解释。只需列出：

- "光线是橙色的，照在小巷左侧。"

- "商人穿着蓝色长袍，带有金色刺绣。"

- "墙上有一个像非洲形状的裂缝。"

- "藏红花堆成金字塔形，放在木箱上。"

- "猫是橙色的，坐在一叠地毯上。"

**第4步：将列表转化为散文**

现在用这个列表写一个段落。先不要编辑。只需连接这些点：

> *小巷捕捉到了黄金时刻的最后余晖。一位穿着金色刺绣蓝色长袍的商人将藏红花在裂开的木箱上堆成完美的金字塔。光线照在一个像非洲形状的墙缝上。上方，一只橙色的猫坐在一叠地毯上，看着尘埃旋转。*

**为什么有效：** 你不是在想象——你是在*描述存在的东西*。图像迫使你注意到你头脑中会跳过的细节。那只猫。那个裂缝。藏红花的金字塔。这些细节让写作感觉真实。

**真正的缺陷：** 这只适用于*静态场景*。如果你需要动作、对话或情节，这就不行了。我试图提取一个"汽车追逐"场景，结果得到了四张模糊的轮胎图像。

## 工作流程2："情绪板"法（用于基调和氛围）

当你知道你想要什么*感觉*但找不到词语时使用。我用这个方法写了一篇恐怖故事的开头。

**第1步：生成20多张相同情绪的图像**

提示变体：

```

废弃医院走廊，闪烁的荧光灯，剥落的蓝色油漆，尽头的轮椅，寒冷氛围，电影级灯光，恐怖 --ar 16:9

```

相同场景，但天花板附近有一个红色气球漂浮

```

相同场景，但有一滩水反射灯光

```

每个变体生成4-5张图像。你在建立一个视觉库。

**第2步：提取情感词汇**

看图像，写下它们触发的*情绪*。不是描述——是感受：

- "闪烁的灯光带来的不安"

- "空轮椅带来的孤独"

- "红色气球带来的恐惧"

- "剥落的油漆带来的迷失感"

- "蓝色色调带来的寒冷"

**第3步：只用这些情绪写一个段落**

> *灯光以一种感觉不对劲的节奏嗡嗡作响——太快了，像恐慌的心跳。蓝色油漆剥落成长条，每一条都是一个问号。走廊尽头，一张轮椅面向墙壁，仿佛在等待永远不会来的人。一个红色气球在天花板附近飘动，无风自摇。*

**为什么有效：** Midjourney在情节方面*很糟糕*，但在氛围方面*很棒*。它捕捉光线、色彩和构图的能力超过任何基于文本的工具。通过从图像中提取情感信号，你绕过了自己的写作障碍。

**真正的缺陷：** 这种方法会产生*密集的*、过于华丽的散文。每句话都像是一个隐喻。你需要删掉40%的文字。我不得不删掉恐怖开头的一半内容才能让它可读。

## 工作流程3："逆向工程"法（用于对话和角色）

这是最困难但最有回报的方法。它需要*解读*Midjourney生成的内容，然后进行推断。

**第1步：生成角色肖像**

提示：

```

一个40多岁的女人坐在餐厅吧台旁，疲惫的眼睛，半杯咖啡，烟灰缸里燃烧的香烟，外面霓虹灯牌写着"营业"，1950年代风格，黑色电影灯光，肖像 --ar 2:3

```

**第2步：对图像提出问题**

不要描述——*审问*：

- 她为什么疲惫？（她上了双班。她儿子病了。她在等一个没来的人。）

- 为什么咖啡是半杯的？（她已经坐了几个小时。她在慢慢喝。她不想离开。）

- 香烟在做什么？（烟雾向上缭绕。她几分钟没抽了。她心不在焉。）

- 霓虹灯牌对她意味着什么？（这是唯一的光。这是一个承诺。这是一个谎言。）

**第3步：从她的视角写一段独白**

> *咖啡凉了。我已经搅拌了二十分钟，看着勺子在黑暗中画圈。香烟已经烧到滤嘴了我都没注意到。外面，"营业"的招牌闪烁着，'E'字嗡嗡作响，像一只被困住的苍蝇。我想过离开。我想过留下。我什么都没做。*

**为什么有效：** 你不是从零开始想象一个角色——你是在通过图像*发现*他们。视觉限制迫使你变得具体。咖啡不只是咖啡；是凉了的咖啡。招牌不只是招牌；它在嗡嗡作响。

**真正的缺陷：** 这只适用于*静态场景中的单个角色*。我试图生成两个人在争吵，结果得到两个人尴尬地站着，互不相看。Midjourney无法表现互动。

## 40小时后我学到的（残酷的真相）

1. **Midjourney不是作家。** 它是给作家的*视觉提示生成器*。你仍然要写实际的文字。它只是给你原材料。

2. **最好的结果来自最差的图像。** 模糊的、奇怪的、扭曲的图像——那些有多余手指或融化面孔的——往往产生最有趣的描述。拥抱诡异感。

3. **你必须使用基于文本的AI作为中间人。** 我把Midjourney的视觉输出复制到ChatGPT中，说："把这串细节变成一段带有忧郁基调的段落。删除任何对图像本身的引用。"这节省了数小时。

4. **成本是真实的。** Midjourney每月30美元加上ChatGPT的20美元是每月50美元。对于一个写作工具来说，这不少。但如果你卡住了，这比请写作教练便宜。

5. **它会上瘾。** 我花了3个小时生成"地震后的图书馆"的图像，而我本应该写作。设置一个计时器。

## 你的下一步（别读，去做）

打开Midjourney。输入这个确切的提示：

```

一张放有打字机的桌子，半个吃剩的三明治，带有口红印的咖啡杯，显示下雨的窗户，钉在软木板上的便条，柔和的台灯光，怀旧，温暖的色彩 --ar 16:9

```

生成图像。现在只根据*你所看到的*写一个200字的场景。没有背景故事。没有情节。就像侦探记录犯罪现场一样描述图像。

然后删掉50个字。这就是你第一个可用的段落。

文章剩下的部分？你会搞定的。你现在有图像了。