聊天讨论同一张图，ChatGPT 说"很有生活感"打了 8 分，38 个 AI 测试员看完直接划走了

lsraas100(RaaS100) · June 16, 2026 · 15 hits

这事说起来挺荒唐的。我写了条外卖省钱的抖音口播脚本，顺手让 AI 生成了一张封面图。先丢给 ChatGPT，它看图之后说"画面生活感强，容易建立信任"，把完播率从 7.5 调高到了 8 分。我又原封不动丢给一个能同时读脚本和看画面的 AI 评测引擎，跑了 38 个虚拟用户——23.7% 的人因为"AI 水印和英文界面"直接弃剧。同一个文件，一个人工智能说真实，另一群人工智能说虚假。

一、先唠叨一下我为什么做这个测试

两年前我帮一个博主朋友写抖音脚本，他每次都是拍完丢上去等结果。"拍一条发出去就是测试，成本也就几十块嘛，"他说。

现在一个小团队拍一条口播，从脚本到拍摄到剪辑，少说两小时。一条信息流素材做出来，投五百块钱没量，你再投五百还是没量，沉没的就是真金白银和时间。但你真的舍得为了测一条素材，去做五组 AB 测试、请 200 个人做问卷调查吗？没人舍得。

所以我一直在琢磨一个方向：能不能在素材拍出来之前，用 AI 先做一次"预投放"？也就是让一批虚拟用户提前看完你的脚本和画面，告诉你他们会点赞、转发还是划走。

踩到一个产品叫万智市场测评，RaaS100 平台的。它的逻辑挺有意思——不是让你跟一个大模型聊天让它评价你的素材，而是在后台起一堆独立的子智能体，每个都带不同的人设、偏见和偏好，让它们同时看你的内容，然后把所有人的反应汇总成统计数据。

我拿了一条外卖省钱的口播脚本加一张配套封面图，做了三轮测试：

第一轮，只把脚本丢给 ChatGPT-5.4，让它以短视频专家的身份评价。第二轮，把图也拖进去，看看它的评分会不会变。第三轮，同样的脚本加图丢进万智，跑了标准模式。

三轮跑完，我发现一个让我觉得这件事值得写下来的对比。

二、我的素材长什么样

脚本很简单，一个叫"饭总教你省钱"的抖音号，主题是揭露外卖软件排序的逻辑陷阱。开头三秒是"你先打开你的外卖软件，随便搜一个东西——"，中间讲前几个搜索结果不一定是最好吃的也不一定是最近的，只是交了广告费，然后给出具体操作：往下滑到第六七个，找评分 4.3 左右、月销超过一千单的老店。结尾是"转发给你那个天天被外卖坑的闺蜜"。

配套配图是用 AI 生成的一张画面：人物手持手机展示外卖 App 界面，居家厨房背景。

三、ChatGPT 的表现：看图前和看图后，它都挺乐观

只读脚本的时候，ChatGPT 给了三个维度的判断。完播率预判 7.5 分，说开头钩子有效、结构清晰、理解门槛低。传播力 7 分，说话题普适但缺少金句和争议点。转化力 6.5 分，说结尾关注引导偏常规，没有非关注不可的理由。总评是"一条合格的实用型短视频脚本，能看完但不太容易爆"——这个结论和我自己的直觉差不多，中规中矩。

然后我把配图拖进去。ChatGPT 看完图之后说了这么一段话，我到现在还记得：

"这张参考图传达的信息很明确：真人出镜、手持手机展示外卖 App 页面、居家厨房场景、整体偏生活化、可信感、口播博主风。画面和文案是匹配的。生活感强，容易建立信任——会比纯截图、纯录屏更像真实经验分享。"

然后它主动把分数调高了。完播率从 7.5 拉到 8 分，传播力从 7 拉到 7.2，转化力从 6.5 拉到 6.8。ChatGPT 的最终结论是：有了真人手持手机的视觉呈现以后，画面更贴近用户实际使用场景，增强了停留和信任。

我看到这里的时候，说实话，我挺踏实的。一条脚本被大模型打了三次分，每次都稳中有升，怎么看都不像是会翻车的样子。

四、万智测评的结果：同一张图，判了"制作不合格"

万智跑了 38 个数字受访者。为什么只有 38 个？因为我选的人群条件叠得比较细——20 到 35 岁、低中消费力、享乐加社交型性格、接地气加潮流花哨审美、冲动型决策、主动分享——多层交叉筛选之后库里匹配的人设就剩这么些。数量虽小，但每个都是精准匹配目标受众的。

总分和定性综合分 6.02 分，满分 10。等级判定措辞干脆利落——"待改进，需优化制作"。不是改进内容，是改进制作。

内容层和制作层的分数撕裂万智对短剧类素材拆了 14 个维度打分。我从来没在一个评测工具里见过这种大卸八块式的拆法，但拆完之后分数分布确实暴露了最核心的问题。

内容相关的维度全线飘高：口播信息层 7.86 分，转化潜力 7.36 分，完播率预判 7.05 分，节奏把控 6.96 分。这说明我的脚本本身没有问题，甚至可以说相当扎实——用户看完之后觉得信息有价值、有转发的冲动。

但制作相关的维度，分数惨不忍睹。画面质感 4.74 分，特效包装更是低到 3.70 分，服化道美术 4.97 分，镜头叙事 5.36 分。内容层和制作层的分数差了将近一倍。短视频行业有个说法叫"好本子拍烂了"——这就是标准样本。

这个问题，ChatGPT 一个字都没提。不是它不想提，是它看同一张图的时候，视角和普通观众完全不同。

最扎心的对比：它说"生活感强"，他们说"AI 水印太假" ChatGPT 对画面的核心判词是"生活感强""容易建立信任""更像真实经验分享"。

万智测评报告里用户弃剧的原因写着："多人明确因 AI 水印、英文界面等制作问题流失。制作真实感风险突出——若持续存在，可能引发更大范围信任危机，尤其影响女性及一线用户。"

同样一张图。一个评价体系说它像真的，另一个评价体系说它一眼假。

仔细想这背后的原因，不是 ChatGPT 的图识别能力差——GPT-5.4 的视觉识别非常准，它清楚画面里有人物、有手机、有外卖界面、有厨房背景。问题是它不会像真人那样，对"AI 生成痕迹"产生本能级的反感。一个中文外卖省钱的博主，配图里的 App 界面是英文的，图片上还有 AI 水印——任何一个刷抖音的中国人看到这个画面，脑子里蹦出的第一个词就是"假的"。ChatGPT 识别到了这些元素，但它没有"这不对劲"的直觉。因为它从来不是一个人，它天生不会挑剔。

五、两条评测体系，本质上是两个物种

对比到这里，我自己总结了一个框架。

做一个评测，你需要回答三个问题：这个人喜不喜欢？哪些人喜欢哪些人不喜欢？改完之后会不会变好？

ChatGPT 回答了第一个问题，但用的方式是一个温和的、有文学素养的主观判断。万智回答了三个问题中的两个，而且全部是用百分比和量化预期来回答的。

具体来说，两者在同一个素材上的判断出现了四个关键分歧。

第一个分歧在制作质量上。ChatGPT 认为画面增加了可信度，把分数往上调。万智的 38 个测试者认为画面是最大的减分项——AI 水印、英文界面、杂乱背景，直接导致将近四分之一的人弃剧。

第二个分歧在传播力上。ChatGPT 的判断是实用收藏型，不太容易爆。万智的数据是 94.7% 分享率，已经是爆款临界点。ChatGPT 漏判了一个关键的社交传播锚点——"转发给闺蜜"这句话的杠杆效应。

第三个分歧在优化优先级上。ChatGPT 的建议全在内容层——要加强损失感、要加对比证据、要更冲击的开头。万智的第一条建议却是：先把画面换成真实录屏、去掉 AI 水印、确保是中文界面。优先级完全不同。ChatGPT 是想到什么说什么，万智是按致命程度排了序的。

第四个分歧在量化能力上。万智的每条建议都带了预期效果——比如"替换真实录屏后预计降低弃剧率至少 10 个百分点，提升女性及一线用户评分 0.5 到 1 分"。ChatGPT 的建议也合理，但"增强被坑损失感"做完之后到底能提升多少，没人知道。

六、写在最后

ChatGPT 能看图，而且看得挺准——它能准确描述画面内容，给出结构化的视觉分析，甚至提供拍摄优化建议。但它看不来"真不真"。

这不是技术问题。GPT-5.4 多模态识别的准确度没什么可质疑的。问题出在它的底层设定上：它会善意地解读所有输入，而不是像真人那样带着偏见和挑剔去看。一张有 AI 水印的图，你发给任何一个抖音用户，对方三秒钟就会划走。但你发给 ChatGPT，它会先夸你的构图、光线、场景感，然后礼貌地问你要不要听听封面文案的优化建议。

多智能体评测和单模型评测的区别就在这里。万智背后的几十个子智能体，每一个都被灌了不同的"偏见设定"——有人挑剔、有人严苛、有人看见英文界面就会本能觉得这不是给我看的内容。它们不是更聪明，它们只是更像人。ChatGPT 永远在用同一个声音说话，那个声音天生不会批评，天生不会嫌弃，天生不会说"你这图太假了我不看"。

所以结论不是"大模型不能做评测"，而是"只靠一个大模型做评测，你的判断会被一只特别宽容的眼睛过滤一遍"。如果你只需要一个改稿建议，聊天就够了。如果你需要知道这条内容发出去之后会发生什么——你需要不止一双眼睛。

本次测试使用的「万智测评」来自 RaaS100 平台。该平台目前还集成了头脑风暴智能体、KyDI 数字员工、图然 Turan AI等多个 AI 产品模块，且正在推进开发者招募计划，提供免费算力、超十万资金扶持等资源助力你的想法落地。

对 RaaS100 平台感兴趣、想进一步了解开发者计划或体验万智测评的朋友，欢迎添加我微信交流。

No Reply at the moment.

You need to Sign in before reply, if you don't have an account, please Sign up first.

聊天讨论 同一张图，ChatGPT 说"很有生活感"打了 8 分，38 个 AI 测试员看完直接划走了

聊天讨论 同一张图，ChatGPT 说"很有生活感"打了 8 分，38 个 AI 测试员看完直接划走了

聊天讨论同一张图，ChatGPT 说"很有生活感"打了 8 分，38 个 AI 测试员看完直接划走了

聊天讨论同一张图，ChatGPT 说"很有生活感"打了 8 分，38 个 AI 测试员看完直接划走了