为什么你用 AI 生图总是"开盲盒"？聊聊提示词背后的底层逻辑

1945827520 — Fri, 03 Apr 2026 15:41:53 +0800

为什么你用 AI 生图总是"开盲盒"？聊聊提示词背后的底层逻辑

做独立开发这两年，我逐渐发现一个规律：不管是做产品、写代码还是做设计，最终拉开差距的，往往不是工具本身，而是你对工具的理解深度。

AI 生图这件事，特别明显。

从一次惨痛的封面设计说起

上个月我在做一个小产品的落地页，需要一张主视觉图。我打开 AI 生图工具，输入了一句很"正常"的提示词：

"一个程序员在电脑前工作，科技感，蓝色调"

出来的图，怎么说呢……像是从 2018 年的 PPT 模板库里截出来的。蓝色倒是蓝色了，科技感也有，但那种廉价的科技感——满屏的 0 和 1 在空中飘，人物表情僵硬，背景是标准的深蓝渐变。

我连续生了十几张，都是这个调调。

后来我换了个思路，把提示词改成了：

"一位年轻开发者坐在极简工作台前，MacBook 屏幕发出柔和白光，侧面 45 度自然光从落地窗照入，浅景深，背景是模糊的绿植和书架，富士 Pro 400H 胶片色调，35mm 镜头"

同一个模型，出来的图完全不一样——有质感、有故事、有温度。

这件事让我意识到：大多数人用 AI 生图效果不好，不是模型不行，而是我们在用"人类的感性语言"跟"机器的参数系统"对话，中间差了一层翻译。

AI 不懂"好看"，但懂"85mm 镜头"

这是我踩了很多坑之后总结出来的核心认知：AI 模型的训练数据里，每张图片都带着大量的元数据标签——焦距、光圈、色彩空间、构图方式、摄影风格、甚至具体的胶片型号。

所以当你说"好看"，AI 不知道该往哪个方向走。但当你说"85mm f/1.4，伦勃朗光，柯达 Portra 400"，AI 就能精确地调用对应的视觉特征。

这不是什么高深的摄影知识，而是一套可以复制的翻译框架。我把它总结成一个公式：

[主体描述] + [构图方式] + [光线类型] + [镜头参数] + [色调/胶片] + [环境细节]

举几个实际的例子：

想要"高级感的商务照"： ❌ "一个人穿西装，背景简洁，高级感" ✅ "半身肖像，深灰色纹理背景，柔和漫射光，面部清晰对焦，背景轻微虚化，85mm 镜头，浅景深，人物穿深蓝色细条纹西装，自然微笑"

想要"有情绪的文艺照"： ❌ "一张有感觉的照片，文艺一点" ✅ "侧脸特写，窗边自然光从左侧打入，大面积阴影保留，画面留白 60%，富士 Pro 400H 色调，细腻胶片颗粒，人物低头看书，奶油色高光"

想要"赛博朋克海报"： ❌ "赛博朋克风格的城市" ✅ "俯瞰视角的夜间都市，霓虹灯牌密集排列，粉紫色和青色为主色调，雨后湿润路面反射灯光，烟雾弥漫，16mm 广角镜头，CineStill 800T 色调，高对比度"

你会发现，这个公式的本质，就是把"我脑子里的画面"翻译成"训练数据里的标签"。

一个常被忽略的能力：多轮对话式编辑

很多人用 AI 生图，还停留在"一次性出图"的思维——写一个提示词，生成一张，不满意就重新写，再生成。这其实是在赌运气。

现在比较先进的做法是多轮对话式迭代。简单来说，就是先生成一个 70 分的基础图，然后通过自然语言一步步调整：

"把背景颜色换成暖灰色"
"人物的表情再放松一点"
"光线从右边改到左边"
"加一点胶片颗粒质感"

每一步都在上一张图的基础上修改，而不是从头开始。这种方式的好处是：你可以精确控制每一个变量，最终得到的图是"你设计出来的"，而不是"你抽到的"。

我最近在用的一个平台叫 Nano Banana Pro，它对多轮编辑的支持做得比较好。你可以上传一张图片，然后用自然语言不断修改细节，整个过程就像在跟一个设计师对话。这种体验跟传统的"一次性生成"完全不同，效率高了不止一个量级。

独立开发者最实用的 3 个 AI 生图场景

说完底层逻辑，聊几个实际能帮独立开发者省钱省时间的场景。

场景一：产品落地页主视觉

以前做落地页的 Hero Image，要么找图库（千篇一律），要么请设计师（成本高、沟通累）。现在用 AI 生图，配合上面的提示词公式，30 分钟就能出一张调性对的主视觉。关键是可以快速迭代——上线后觉得不对，换一张的成本几乎为零。

场景二：社交媒体配图

做独立开发，多少都需要在社交媒体上发声。但找配图真的很烦，尤其是想要"既不是烂大街的图库照，又能传达特定情绪"的那种。AI 生图在这里特别好用——你可以精确描述你想要的氛围，生成完全独一无二的配图。

场景三：产品内的占位图和示例图

如果你的产品涉及用户头像、示例内容、空状态插图这些，AI 生图可以帮你快速填充，而且风格统一。比如你做一个笔记应用，需要几张示例封面图，直接用统一的提示词模板批量生成，比到处扒图优雅多了。

选工具的几个建议

最后说说选工具。市面上 AI 生图平台太多了，但作为独立开发者，我觉得主要看三点：

一、模型本身的理解力。 同样的提示词，不同模型的理解能力差距巨大。有些模型你说"侧脸"它给你正脸，说"浅景深"它给你全清晰。目前我个人体验下来，Google 的 Nano Banana 系列在"听懂人话"这件事上做得确实比较好，尤其是复杂场景的理解和文字渲染。

二、迭代成本。 AI 生图本质上是一个概率游戏，你需要大量试错才能找到最满意的那张。所以单次生成的价格很关键——如果一张图要好几毛甚至几块钱，你就不敢放开了试。像 nanobananapro.org 这种提供免费体验的平台，对独立开发者来说就很友好，你可以先放心试，试出效果了再考虑付费方案。

三、编辑能力。 生成只是第一步，后续的局部修改、风格微调、元素增减才是日常高频操作。支持多轮对话式编辑的平台，长期用下来效率会高很多。

写在最后

AI 生图这个事情，技术门槛在快速降低，但"审美翻译"的能力会越来越值钱。

独立开发者的优势在于：我们既懂技术，又离用户最近。当我们能把"用户想要的感觉"精准翻译成"AI 能理解的参数"，就能用极低的成本产出高质量的视觉内容。

这不是设计师要被取代的故事，而是一个新的创作范式正在形成。

如果你也在用 AI 生图，欢迎留言分享你的提示词技巧和踩坑经验，我们一起迭代。

1945827520 (chen)

为什么你用 AI 生图总是"开盲盒"？聊聊提示词背后的底层逻辑