聊天讨论 同一张图,ChatGPT 说"很有生活感"打了 8 分,38 个 AI 测试员看完直接划走了

lsraas100(RaaS100) · June 16, 2026 · 15 hits

这事说起来挺荒唐的。我写了条外卖省钱的抖音口播脚本,顺手让 AI 生成了一张封面图。先丢给 ChatGPT,它看图之后说"画面生活感强,容易建立信任",把完播率从 7.5 调高到了 8 分。我又原封不动丢给一个能同时读脚本和看画面的 AI 评测引擎,跑了 38 个虚拟用户——23.7% 的人因为"AI 水印和英文界面"直接弃剧。同一个文件,一个人工智能说真实,另一群人工智能说虚假。

一、先唠叨一下我为什么做这个测试

两年前我帮一个博主朋友写抖音脚本,他每次都是拍完丢上去等结果。"拍一条发出去就是测试,成本也就几十块嘛,"他说。

现在一个小团队拍一条口播,从脚本到拍摄到剪辑,少说两小时。一条信息流素材做出来,投五百块钱没量,你再投五百还是没量,沉没的就是真金白银和时间。但你真的舍得为了测一条素材,去做五组 AB 测试、请 200 个人做问卷调查吗?没人舍得。

所以我一直在琢磨一个方向:能不能在素材拍出来之前,用 AI 先做一次"预投放"? 也就是让一批虚拟用户提前看完你的脚本和画面,告诉你他们会点赞、转发还是划走。

踩到一个产品叫万智市场测评RaaS100 平台的。它的逻辑挺有意思——不是让你跟一个大模型聊天让它评价你的素材,而是在后台起一堆独立的子智能体,每个都带不同的人设、偏见和偏好,让它们同时看你的内容,然后把所有人的反应汇总成统计数据。

我拿了一条外卖省钱的口播脚本加一张配套封面图,做了三轮测试:

第一轮,只把脚本丢给 ChatGPT-5.4,让它以短视频专家的身份评价。第二轮,把图也拖进去,看看它的评分会不会变。第三轮,同样的脚本加图丢进万智,跑了标准模式。

三轮跑完,我发现一个让我觉得这件事值得写下来的对比。

二、我的素材长什么样

脚本很简单,一个叫"饭总教你省钱"的抖音号,主题是揭露外卖软件排序的逻辑陷阱。开头三秒是"你先打开你的外卖软件,随便搜一个东西——",中间讲前几个搜索结果不一定是最好吃的也不一定是最近的,只是交了广告费,然后给出具体操作:往下滑到第六七个,找评分 4.3 左右、月销超过一千单的老店。结尾是"转发给你那个天天被外卖坑的闺蜜"。

配套配图是用 AI 生成的一张画面:人物手持手机展示外卖 App 界面,居家厨房背景。

三、ChatGPT 的表现:看图前和看图后,它都挺乐观

只读脚本的时候,ChatGPT 给了三个维度的判断。完播率预判 7.5 分,说开头钩子有效、结构清晰、理解门槛低。传播力 7 分,说话题普适但缺少金句和争议点。转化力 6.5 分,说结尾关注引导偏常规,没有非关注不可的理由。总评是"一条合格的实用型短视频脚本,能看完但不太容易爆"——这个结论和我自己的直觉差不多,中规中矩。

然后我把配图拖进去。ChatGPT 看完图之后说了这么一段话,我到现在还记得:

"这张参考图传达的信息很明确:真人出镜、手持手机展示外卖 App 页面、居家厨房场景、整体偏生活化、可信感、口播博主风。画面和文案是匹配的。生活感强,容易建立信任——会比纯截图、纯录屏更像真实经验分享。"

然后它主动把分数调高了。完播率从 7.5 拉到 8 分,传播力从 7 拉到 7.2,转化力从 6.5 拉到 6.8。ChatGPT 的最终结论是:有了真人手持手机的视觉呈现以后,画面更贴近用户实际使用场景,增强了停留和信任。

我看到这里的时候,说实话,我挺踏实的。一条脚本被大模型打了三次分,每次都稳中有升,怎么看都不像是会翻车的样子。

四、万智测评的结果:同一张图,判了"制作不合格"

万智跑了 38 个数字受访者。为什么只有 38 个?因为我选的人群条件叠得比较细——20 到 35 岁、低中消费力、享乐加社交型性格、接地气加潮流花哨审美、冲动型决策、主动分享——多层交叉筛选之后库里匹配的人设就剩这么些。数量虽小,但每个都是精准匹配目标受众的。

总分和定性 综合分 6.02 分,满分 10。等级判定措辞干脆利落——"待改进,需优化制作"。不是改进内容,是改进制作。

内容层和制作层的分数撕裂 万智对短剧类素材拆了 14 个维度打分。我从来没在一个评测工具里见过这种大卸八块式的拆法,但拆完之后分数分布确实暴露了最核心的问题。

内容相关的维度全线飘高:口播信息层 7.86 分,转化潜力 7.36 分,完播率预判 7.05 分,节奏把控 6.96 分。这说明我的脚本本身没有问题,甚至可以说相当扎实——用户看完之后觉得信息有价值、有转发的冲动。

但制作相关的维度,分数惨不忍睹。画面质感 4.74 分,特效包装更是低到 3.70 分,服化道美术 4.97 分,镜头叙事 5.36 分。内容层和制作层的分数差了将近一倍。短视频行业有个说法叫"好本子拍烂了"——这就是标准样本。

这个问题,ChatGPT 一个字都没提。不是它不想提,是它看同一张图的时候,视角和普通观众完全不同。

最扎心的对比:它说"生活感强",他们说"AI 水印太假" ChatGPT 对画面的核心判词是"生活感强""容易建立信任""更像真实经验分享"。

万智测评报告里用户弃剧的原因写着:"多人明确因 AI 水印、英文界面等制作问题流失。制作真实感风险突出——若持续存在,可能引发更大范围信任危机,尤其影响女性及一线用户。"

同样一张图。一个评价体系说它像真的,另一个评价体系说它一眼假。

仔细想这背后的原因,不是 ChatGPT 的图识别能力差——GPT-5.4 的视觉识别非常准,它清楚画面里有人物、有手机、有外卖界面、有厨房背景。问题是它不会像真人那样,对"AI 生成痕迹"产生本能级的反感。一个中文外卖省钱的博主,配图里的 App 界面是英文的,图片上还有 AI 水印——任何一个刷抖音的中国人看到这个画面,脑子里蹦出的第一个词就是"假的"。ChatGPT 识别到了这些元素,但它没有"这不对劲"的直觉。因为它从来不是一个人,它天生不会挑剔。

五、两条评测体系,本质上是两个物种

对比到这里,我自己总结了一个框架。

做一个评测,你需要回答三个问题:这个人喜不喜欢?哪些人喜欢哪些人不喜欢?改完之后会不会变好?

ChatGPT 回答了第一个问题,但用的方式是一个温和的、有文学素养的主观判断。万智回答了三个问题中的两个,而且全部是用百分比和量化预期来回答的。

具体来说,两者在同一个素材上的判断出现了四个关键分歧。

第一个分歧在制作质量上。ChatGPT 认为画面增加了可信度,把分数往上调。万智的 38 个测试者认为画面是最大的减分项——AI 水印、英文界面、杂乱背景,直接导致将近四分之一的人弃剧。

第二个分歧在传播力上。ChatGPT 的判断是实用收藏型,不太容易爆。万智的数据是 94.7% 分享率,已经是爆款临界点。ChatGPT 漏判了一个关键的社交传播锚点——"转发给闺蜜"这句话的杠杆效应。

第三个分歧在优化优先级上。ChatGPT 的建议全在内容层——要加强损失感、要加对比证据、要更冲击的开头。万智的第一条建议却是:先把画面换成真实录屏、去掉 AI 水印、确保是中文界面。优先级完全不同。ChatGPT 是想到什么说什么,万智是按致命程度排了序的。

第四个分歧在量化能力上。万智的每条建议都带了预期效果——比如"替换真实录屏后预计降低弃剧率至少 10 个百分点,提升女性及一线用户评分 0.5 到 1 分"。ChatGPT 的建议也合理,但"增强被坑损失感"做完之后到底能提升多少,没人知道。

六、写在最后

ChatGPT 能看图,而且看得挺准——它能准确描述画面内容,给出结构化的视觉分析,甚至提供拍摄优化建议。但它看不来"真不真"。

这不是技术问题。GPT-5.4 多模态识别的准确度没什么可质疑的。问题出在它的底层设定上:它会善意地解读所有输入,而不是像真人那样带着偏见和挑剔去看。一张有 AI 水印的图,你发给任何一个抖音用户,对方三秒钟就会划走。但你发给 ChatGPT,它会先夸你的构图、光线、场景感,然后礼貌地问你要不要听听封面文案的优化建议。

多智能体评测和单模型评测的区别就在这里。万智背后的几十个子智能体,每一个都被灌了不同的"偏见设定"——有人挑剔、有人严苛、有人看见英文界面就会本能觉得这不是给我看的内容。它们不是更聪明,它们只是更像人。ChatGPT 永远在用同一个声音说话,那个声音天生不会批评,天生不会嫌弃,天生不会说"你这图太假了我不看"。

所以结论不是"大模型不能做评测",而是"只靠一个大模型做评测,你的判断会被一只特别宽容的眼睛过滤一遍"。如果你只需要一个改稿建议,聊天就够了。如果你需要知道这条内容发出去之后会发生什么——你需要不止一双眼睛。

本次测试使用的「万智测评」来自 RaaS100 平台。该平台目前还集成了头脑风暴智能体、KyDI 数字员工、图然 Turan AI等多个 AI 产品模块,且正在推进开发者招募计划,提供免费算力、超十万资金扶持等资源助力你的想法落地。

RaaS100 平台感兴趣、想进一步了解开发者计划或体验万智测评的朋友,欢迎添加我微信交流。

No Reply at the moment.
You need to Sign in before reply, if you don't have an account, please Sign up first.